五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網 會員登陸 & 注冊

Python爬取豆瓣Top250并可視化(五)- 爬蟲代碼總結

2022-11-11 15:28 作者:碼夫破石  | 我要投稿

寫完這篇,爬蟲代碼就全部結束了。代碼筆記:

代碼的解釋基本都在注釋中。也很簡單,主要是寫成了一個類,這樣程序只有一個入口。就是run()??偨Y了幾種常用保存爬蟲數(shù)據的方法:

1,保存到csv;

2,保存到excel;

3,保存到數(shù)據庫,這里用的是sqlite和mysql;

需要注意的:

提取數(shù)據部分:

在get_data()里有一個項,也就是排名第53的電影《大鬧天宮》,將年份和地區(qū)分離的時候,會讓插入的sql語句產生錯誤,所以這里用了正則提取數(shù)字和文字。

數(shù)據保存部分:

1,保存數(shù)據到本地的時候,I/O文件與數(shù)據遍歷的時候保存問題,一不小心就有可能只保存到一部分;

2,用xwlt保存到excel的時候雙層循環(huán)問題;

3,用csv保存的時候DictWriter寫法;

4,sqlite和mysql主鍵自增寫法的不同,sqlite是autoincrenment,而mysql是auto_increment,確切的說是全部大寫;

5,用占位符構造sql語句時的對愿列表進行處理的方法;也就是給data的每一項前后加上雙引號的處理方法;

6,mysql創(chuàng)建數(shù)據的時候默認字符集的處理CREATE DATABASE IF NOT EXISTS {databasename} DEFAULT CHARSET utf8 COLLATE utf8_general_ci;

7,構造sql語句的時候最容易出現(xiàn)錯誤,最直觀的方法就是在sql的控制臺執(zhí)行一下sql語句,看是不是有效運行,這樣可以減少很多時間;

8,調試代碼的時候可以用exit(),如果是循環(huán),也可以用break;

9,試著給某些函數(shù)做條件限定。

Python爬取豆瓣Top250并可視化(五)- 爬蟲代碼總結的評論 (共 條)

分享到微博請遵守國家法律
名山县| 鞍山市| 元谋县| 勃利县| 南召县| 翁源县| 阿坝| 潍坊市| 元氏县| 砀山县| 岳普湖县| 霍邱县| 永仁县| 治县。| 凤冈县| 华宁县| 河北区| 乌拉特中旗| 大石桥市| 买车| 南投市| 永济市| 东台市| 铜梁县| 类乌齐县| 浮山县| 油尖旺区| 温泉县| 马关县| 泸西县| 宁武县| 齐齐哈尔市| 咸丰县| 林甸县| 邢台市| 休宁县| 阜新| 宁安市| 闸北区| 太保市| 宝山区|