五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Python個人學習筆記 XPath語法與lxml.etree模塊

2023-07-13 12:31 作者:ベレッタ  | 我要投稿

lxml.etree

????解析HTML代碼

XPath

????常用語法

????常用用法示例

????運算符



解析HTML代碼

⑴ 解析本地文件 parse()


⑵ 解析字符串HTML代碼 HTML()

其實用response.html可以直接獲取非字符串類型的HTML代碼,沒必要再用etree.HTML()解析一遍。

區(qū)別就是匹配節(jié)點后輸出的方式不同。response.html會顯示標簽中屬性和屬性值,etree.HTML()解析的代碼只顯示標簽名。



XPath

XPath可用于爬蟲中匹配標簽對。

常用語法

示例可參考 requests庫 requests_html庫——簡單數(shù)據(jù)爬取。


常用用法示例

⑴ 獲取所有節(jié)點 //*


⑵ 獲取父節(jié)點 ..

多個節(jié)點的父節(jié)點相同時,不會重復返回父節(jié)點。

獲取<body>下<div>標簽的父節(jié)點。一共會匹配到5個<div>,只會返回1個<body>。


⑶ 獲取文本 /text()????/????獲取屬性值 @

① 獲取所有<td class="..." colspan="..." style="...">下<a>的文本。

②?獲取所有<td class="..." colspan="..." style="...">下<a>的title的屬性值。



⑷ 模糊匹配文本 contains()

① 匹配屬性值

② 匹配文本


⑸ 指定索引

在之前的例子中獲取東方作品名中,一共有4個表格:舊作、整數(shù)作、小數(shù)點作、黃昏作。

用索引 [2] 指定第二個表格(新作),再獲取作品名。

last():返回最后一個索引值。

position():返回當前索引值。

用?[last()-2]、[position()=2] 同樣可以獲取第二個表格。

▲索引從1開始。


⑹ 指定軸(節(jié)點關系) ::

示例參考?requests庫 requests_html庫——簡單數(shù)據(jù)爬取。


運算符

示例:

獲取<head>和<table>標簽。


Python個人學習筆記 XPath語法與lxml.etree模塊的評論 (共 條)

分享到微博請遵守國家法律
吴桥县| 大丰市| 吴旗县| 武邑县| 星座| 达拉特旗| 望都县| 中卫市| 鄂尔多斯市| 南平市| 敦化市| 赤峰市| 榆林市| 比如县| 永川市| 凤台县| 郸城县| 临颍县| 手游| 灵宝市| 都江堰市| 阳信县| 吉木乃县| 鄄城县| 湖南省| 五原县| 水城县| 福海县| 九江县| 拉孜县| 闵行区| 惠水县| 金沙县| 五寨县| 菏泽市| 龙川县| 平凉市| 翼城县| 新昌县| 永泰县| 沅江市|