python爬蟲練習(xí)1

爬蟲要注意網(wǎng)站讓不讓你爬，不然要坐牢的優(yōu)。

這個(gè)學(xué)習(xí)一下爬蟲，查找新冠肺炎的數(shù)據(jù)，這個(gè)應(yīng)該是可以的。

看一下源代碼，打開網(wǎng)頁Ctrl+U會跳出源代碼。確認(rèn)有數(shù)據(jù)。

爬蟲需要requests模塊，在python里面確認(rèn)一下。

先調(diào)試一下可不可以爬到數(shù)據(jù)，代碼如下：

import requests

url=?'view-source:https://voice.baidu.com/act/newpneumonia/newpneumonia/from=osari_pc_3'

strhtml=requests.get(url)

print(strhtml.text)

運(yùn)行沒有報(bào)錯(cuò)，可以把網(wǎng)頁源代碼爬下來的。But源碼里面很多網(wǎng)頁的信息，怎么找到自己要的就是下一步了。

更換數(shù)據(jù)源為開放的API，主要是來源數(shù)據(jù)量少，要的都有。

import requests

url='https://interface.sina.cn/news/wap/fymap2020_data.d.json'

strhtml=requests.get(url)

print(strhtml.text)

感覺可以，但是里面文字沒有處理，中文不顯示。

標(biāo)簽：

python爬蟲練習(xí)1的評論 (共條)