五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

18. Scrapy 數(shù)據(jù)的提取

2020-07-02 09:27 作者:自學(xué)Python的小姐姐呀  | 我要投稿

1 Scrapy提取項(xiàng)目

從網(wǎng)頁(yè)中提取數(shù)據(jù),Scrapy 使用基于 XPath 和 CSS 表達(dá)式的技術(shù)叫做選擇器。以下是 XPath 表達(dá)式的一些例子:

  • 這將選擇 HTML 文檔中的 <head> 元素中的 <title> 元素

/html/head/title

  • 這將選擇 <title> 元素中的文本

/html/head/title/text()

  • 這將選擇所有的 <td> 元素

//td

  • 選擇 div 包含一個(gè)屬性 class=”slice” 的所有元素

//div[@class=”slice”]

選擇器有四個(gè)基本的方法,如下所示:

S.N.方法 & 描述extract()它返回一個(gè)unicode字符串以及所選數(shù)據(jù)extract_first()它返回第一個(gè)unicode字符串以及所選數(shù)據(jù)re()它返回Unicode字符串列表,當(dāng)正則表達(dá)式被賦予作為參數(shù)時(shí)提取xpath()它返回選擇器列表,它代表由指定XPath表達(dá)式參數(shù)選擇的節(jié)點(diǎn)css()它返回選擇器列表,它代表由指定CSS表達(dá)式作為參數(shù)所選擇的節(jié)點(diǎn)

2 Scrapy Shell

如果使用選擇器想快速的到到效果,我們可以使用Scrapy Shell

scrapy shell "http://www.163.com"

注意windows系統(tǒng)必須使用雙引號(hào)

2.1 舉例

從一個(gè)普通的HTML網(wǎng)站提取數(shù)據(jù),查看該網(wǎng)站得到的 XPath 的源代碼。檢測(cè)后,可以看到數(shù)據(jù)將在UL標(biāo)簽,并選擇 li 標(biāo)簽中的 元素。

代碼的下面行顯示了不同類型的數(shù)據(jù)的提?。?/p>

  • 選擇 li 標(biāo)簽內(nèi)的數(shù)據(jù):

response.xpath('//ul/li')

  • 對(duì)于選擇描述:

response.xpath('//ul/li/text()').extract()

  • 對(duì)于選擇網(wǎng)站標(biāo)題:

response.xpath('//ul/li/a/text()').extract()

  • 對(duì)于選擇網(wǎng)站的鏈接:

response.xpath('//ul/li/a/@href').extract()


18. Scrapy 數(shù)據(jù)的提取的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
隆德县| 荥阳市| 东台市| 娱乐| 晋州市| 镇宁| 隆尧县| 苏尼特左旗| 静安区| 民勤县| 尼勒克县| 基隆市| 廊坊市| 河北区| 集安市| 开阳县| 西藏| 绩溪县| 大兴区| 洪洞县| 衡阳市| 松滋市| 秀山| 日土县| 商河县| 沈阳市| 安国市| 酒泉市| 连州市| 泰和县| 卢湾区| 辽宁省| 屯门区| 益阳市| 鄂尔多斯市| 望谟县| 嵊泗县| 武功县| 鹤壁市| 玉树县| 郎溪县|