五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網 會員登陸 & 注冊

Java培訓:使用JAVA爬取網站數據

2022-12-14 14:15 作者:云和數據何老師  | 我要投稿


1.Jsoup介紹

– 官網文檔:https://jsoup.org  - Jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數據。

2. Jsoup快速入門

– 獲取網頁標題

String url = “https://search.jd.com/Search?keyword=手機&wq=手機&page=1”;
Document document = Jsoup.connect(url).get();
String title = document.select(“title”).text();
System.out.println(title);
“`
– 運行效果:手機 – 商品搜索 – 京東

3. 網站數據分析

3.1 分析網站的訪問地址

– 以京東商城為例,商品分頁列表的url地址,需要帶如下幾個參數,因此,在發(fā)送http請求時,需要攜帶正確的參數。

– URL:https://search.jd.com/Search?keyword=手機&wq=手機&page=1

3.2 分析網站的頁面結構

– 通過瀏覽器的開發(fā)者工具,可以分析出頁面中我們需要的html結構。

<img src=”assets/image-20220717171103097.png” alt=”image-20220717171103097″ style=”zoom:67%;” />
– 可以看出,我們需要的商品數據,封裝在一個id=J_goodsList的div標簽中,我們可以方便的通過DOM解析出這塊數據。

4. 實戰(zhàn)實現過程

– 獲取第1頁的商品基本數據

public static void main(String[] args) throws Exception {
//第1頁地址
String url = “https://search.jd.com/Search?keyword=手機&wq=手機&page=1”;
//發(fā)送http請求
Document document = Jsoup.connect(url).get();
//在id=J_goodsList的div下,獲取所有帶有data-sku屬性的li標簽
Elements lis = document.select(“div[id=J_goodsList] li[data-sku]”);
lis.forEach(
li -> {
//獲取商品sku
String sku = li.attr(“data-sku”);
//獲取商品name
String name = li.select(“div[class=’p-name p-name-type-2′] a em”).text();
//獲取商品圖片地址
String img = li.select(“div[class=p-img] a img[data-lazy-img]”).attr(“data-lazy-img”);

System.out.println(String.format(“%s, %s, %s”, sku, name, img));
}
);
}
– 效果預覽

1665718155423_1.jpg

– 改造為分頁獲取

public static void main(String[] args) throws Exception {
//第N頁地址
String url = “https://search.jd.com/Search?keyword=手機&wq=手機&page=” + i;
//發(fā)送http請求
Document document = Jsoup.connect(url).get();
//在id=J_goodsList的div下,獲取所有帶有data-sku屬性的li標簽
Elements lis = document.select(“div[id=J_goodsList] li[data-sku]”);
lis.forEach(
li -> {
//獲取商品sku
String sku = li.attr(“data-sku”);
//獲取商品name
String name = li.select(“div[class=’p-name p-name-type-2′] a em”).text();
//獲取商品圖片地址
String img = li.select(“div[class=p-img] a img[data-lazy-img]”).attr(“data-lazy-img”);

System.out.println(String.format(“%s, %s, %s”, sku, name, img));
}
);


Java培訓:使用JAVA爬取網站數據的評論 (共 條)

分享到微博請遵守國家法律
繁峙县| 米易县| 黔江区| 恩施市| 文化| 仪陇县| 平原县| 托克托县| 周至县| 弥勒县| 景德镇市| 太谷县| 大邑县| 车致| 长葛市| 喀喇沁旗| 广东省| 团风县| 广灵县| 仪陇县| 盐津县| 台安县| 南雄市| 崇文区| 漳州市| 永平县| 兴隆县| 临沭县| 岑巩县| 游戏| 普兰县| 武乡县| 宝应县| 新郑市| 三门峡市| 马关县| 陕西省| 浦北县| 白银市| 抚顺县| 综艺|