python爬蟲練習(xí)1
2020-02-28 18:40 作者:一心想當(dāng)網(wǎng)紅的李老師 | 我要投稿
爬蟲要注意網(wǎng)站讓不讓你爬,不然要坐牢的優(yōu)。
這個(gè)學(xué)習(xí)一下爬蟲,查找新冠肺炎的數(shù)據(jù),這個(gè)應(yīng)該是可以的。
看一下源代碼,打開網(wǎng)頁Ctrl+U會跳出源代碼。確認(rèn)有數(shù)據(jù)。
爬蟲需要requests模塊,在python里面確認(rèn)一下。
先調(diào)試一下可不可以爬到數(shù)據(jù),代碼如下:
import requests
url=?'view-source:https://voice.baidu.com/act/newpneumonia/newpneumonia/from=osari_pc_3'
strhtml=requests.get(url)
print(strhtml.text)
運(yùn)行沒有報(bào)錯(cuò),可以把網(wǎng)頁源代碼爬下來的。But源碼里面很多網(wǎng)頁的信息,怎么找到自己要的就是下一步了。
更換數(shù)據(jù)源為開放的API,主要是來源數(shù)據(jù)量少,要的都有。
import requests
url='https://interface.sina.cn/news/wap/fymap2020_data.d.json'
strhtml=requests.get(url)
print(strhtml.text)
感覺可以,但是里面文字沒有處理,中文不顯示。
標(biāo)簽: