java可以寫爬蟲嗎，java 百度爬蟲_零基礎寫Java知乎爬蟲之先拿百度首頁練練手-變量-匯編語言學習筆記

java可以寫爬蟲嗎，java 百度爬蟲_零基礎寫Java知乎爬蟲之先拿百度首頁練練手

2023-10-20 阅读 31 评论 0

摘要：上一集中我們說到需要用Java來制作一個知乎爬蟲，那么這一次，我們就來研究一下如何使用代碼獲取到網頁的內容。首先，沒有HTML和CSS和JS和AJAX經驗的建議先去W3C(點我點我)小小的了解一下。java可以寫爬蟲嗎、說到HTML，這里就涉及到一個GET訪問和PO

上一集中我們說到需要用Java來制作一個知乎爬蟲，那么這一次，我們就來研究一下如何使用代碼獲取到網頁的內容。

首先，沒有HTML和CSS和JS和AJAX經驗的建議先去W3C(點我點我)小小的了解一下。

java可以寫爬蟲嗎、說到HTML，這里就涉及到一個GET訪問和POST訪問的問題。

如果對這個方面缺乏了解可以閱讀W3C的這篇：《GET對比POST》。

啊哈，在此不再贅述。

javaweb書籍知乎、然后咧，接下來我們需要用Java來爬取一個網頁的內容。

這時候，我們的百度就要派上用場了。

沒錯，他不再是那個默默無聞的網速測試器了，他即將成為我們的爬蟲小白鼠！~

java知乎，我們先來看看百度的首頁：

相信大家都知道，現在這樣的一個頁面，是HTML和CSS共同工作的結果。

我們在瀏覽器中右擊頁面，選擇“查看頁面源代碼”：

java 入門，沒錯，就是這一坨翔一樣的東西。這就是百度頁面的源代碼。

接下來我們的任務，就是使用我們的爬蟲也獲取到一樣的東西。

先來看一段簡單的源碼：

java。import java.io.*;

import java.net.*;

public class Main {

public static void main(String[] args) {

// 定義即將訪問的鏈接

String url = "http://www.baidu.com";

// 定義一個字符串用來存儲網頁內容

String result = "";

// 定義一個緩沖字符輸入流

BufferedReader in = null;

try {

// 將string轉成url對象

URL realUrl = new URL(url);

// 初始化一個鏈接到那個url的連接

URLConnection connection = realUrl.openConnection();

// 開始實際的連接

connection.connect();

// 初始化 BufferedReader輸入流來讀取URL的響應

in = new BufferedReader(new InputStreamReader(

connection.getInputStream()));

// 用來臨時存儲抓取到的每一行的數據

String line;

while ((line = in.readLine()) != null) {

//遍歷抓取到的每一行并將其存儲到result里面

result += line;

}

} catch (Exception e) {

System.out.println("發送GET請求出現異常！" + e);

e.printStackTrace();

}

// 使用finally來關閉輸入流

finally {

try {

if (in != null) {

in.close();

}

} catch (Exception e2) {

e2.printStackTrace();

}

System.out.println(result);

}

以上就是Java模擬Get訪問百度的Main方法，

可以運行一下看看結果：

啊哈，和我們前面用瀏覽器看到的一模一樣。至此，一個最最簡單的爬蟲就算是做好了。

但是這么一大坨東西未必都是我想要的啊，怎么從中抓取出我想要的東西呢？

以百度的大爪子Logo為例。

臨時需求：

獲取百度Logo的大爪子的圖片鏈接。

先說一下瀏覽器的查看方法。

鼠標對圖片右擊，選擇審查元素(火狐，谷歌，IE11，均有此功能，只是名字不太一樣)：

啊哈，可以看到在一大堆div的圍攻下的可憐的img標簽。

這個src就是圖像的鏈接了。

那么在java中我們怎么搞呢？

事先說明，為了方便演示代碼，所有代碼均未作類封裝，還請諒解。

我們先把前面的代碼封裝成一個sendGet函數：

import java.io.*;

import java.net.*;

public class Main {

static String sendGet(String url) {

// 定義一個字符串用來存儲網頁內容

String result = "";

// 定義一個緩沖字符輸入流

BufferedReader in = null;

try {

// 將string轉成url對象

URL realUrl = new URL(url);

// 初始化一個鏈接到那個url的連接

URLConnection connection = realUrl.openConnection();

// 開始實際的連接

connection.connect();

// 初始化 BufferedReader輸入流來讀取URL的響應

in = new BufferedReader(new InputStreamReader(

connection.getInputStream()));

// 用來臨時存儲抓取到的每一行的數據

String line;

while ((line = in.readLine()) != null) {

// 遍歷抓取到的每一行并將其存儲到result里面

result += line;

}

} catch (Exception e) {

System.out.println("發送GET請求出現異常！" + e);

e.printStackTrace();

}

// 使用finally來關閉輸入流

finally {

try {

if (in != null) {

in.close();

}

} catch (Exception e2) {

e2.printStackTrace();

}

return result;

}

public static void main(String[] args) {

// 定義即將訪問的鏈接

String url = "http://www.baidu.com";

// 訪問鏈接并獲取頁面內容

String result = sendGet(url);

System.out.println(result);

}

這樣看起來稍微整潔了一點，請原諒我這個強迫癥。

接下來的任務，就是從獲取到的一大堆東西里面找到那個圖片的鏈接。

我們首先可以想到的方法，是對頁面源碼的字符串result使用indexof函數進行String的子串搜索。

沒錯這個方法是可以慢慢解決這個問題，比如直接indexOf("src")找到開始的序號，然后再稀里嘩啦的搞到結束的序號。

不過我們不能一直使用這種方法，畢竟草鞋只適合出門走走，后期還是需要切假腿來拿人頭的。

請原諒我的亂入，繼續。

那么我們用什么方式來尋找這張圖片的src呢？

沒錯，正如下面觀眾所說，正則匹配。

如果有同學不太清楚正則，可以參照這篇文章：[Python]網絡爬蟲(七)：Python中的正則表達式教程。

簡單來說，正則就像是匹配。

比如三個胖子站在這里，分別穿著紅衣服，藍衣服，綠衣服。

正則就是：抓住那個穿綠衣服的！

然后把綠胖子單獨抓了出來。

就是這么簡單。

但是正則的語法卻還是博大精深的，剛接觸的時候難免有點摸不著頭腦，

向大家推薦一個正則的在線測試工具：正則表達式在線測試。

有了正則這個神兵利器，那么怎么在java里面使用正則呢？

先來看個簡單的小李子吧。

啊錯了，小栗子。

// 定義一個樣式模板，此中使用正則表達式，括號中是要抓的內容

// 相當于埋好了陷阱匹配的地方就會掉下去

Pattern pattern = Pattern.compile("href=\"(.+?)\"");

// 定義一個matcher用來做匹配

Matcher matcher = pattern.matcher("＜a href=\"index.html\"＞我的主頁＜/a＞");

// 如果找到了

if (matcher.find()) {

// 打印出結果

System.out.println(matcher.group(1));

}

運行結果：

index.html

沒錯，這就是我們的第一個正則代碼。

這樣應用的抓取圖片的鏈接想必也是信手拈來了。

我們將正則匹配封裝成一個函數，然后將代碼作如下修改：

import java.io.*;

import java.net.*;

import java.util.regex.*;

public class Main {

static String SendGet(String url) {

// 定義一個字符串用來存儲網頁內容

String result = "";

// 定義一個緩沖字符輸入流

BufferedReader in = null;

try {

// 將string轉成url對象

URL realUrl = new URL(url);

// 初始化一個鏈接到那個url的連接

URLConnection connection = realUrl.openConnection();

// 開始實際的連接

connection.connect();

// 初始化 BufferedReader輸入流來讀取URL的響應

in = new BufferedReader(new InputStreamReader(

connection.getInputStream()));

// 用來臨時存儲抓取到的每一行的數據

String line;

while ((line = in.readLine()) != null) {

// 遍歷抓取到的每一行并將其存儲到result里面

result += line;

}

} catch (Exception e) {

System.out.println("發送GET請求出現異常！" + e);

e.printStackTrace();

}

// 使用finally來關閉輸入流

finally {

try {

if (in != null) {

in.close();

}

} catch (Exception e2) {

e2.printStackTrace();

}

return result;

}

static String RegexString(String targetStr, String patternStr) {

// 定義一個樣式模板，此中使用正則表達式，括號中是要抓的內容

// 相當于埋好了陷阱匹配的地方就會掉下去

Pattern pattern = Pattern.compile(patternStr);

// 定義一個matcher用來做匹配

Matcher matcher = pattern.matcher(targetStr);

// 如果找到了

if (matcher.find()) {

// 打印出結果

return matcher.group(1);

}

return "";

}

public static void main(String[] args) {

// 定義即將訪問的鏈接

String url = "http://www.baidu.com";

// 訪問鏈接并獲取頁面內容

String result = SendGet(url);

// 使用正則匹配圖片的src內容

String imgSrc = RegexString(result, "即將的正則語法");

// 打印結果

System.out.println(imgSrc);

}

好的，現在萬事俱備，只差一個正則語法了！

那么用什么正則語句比較合適呢？

我們發現只要抓住了src="xxxxxx"這個字符串，就能抓出整個src鏈接，

所以簡單的正則語句：src=\"(.+?)\"

完整代碼如下：

import java.io.*;

import java.net.*;

import java.util.regex.*;

public class Main {

static String SendGet(String url) {

// 定義一個字符串用來存儲網頁內容

String result = "";

// 定義一個緩沖字符輸入流

BufferedReader in = null;

try {

// 將string轉成url對象

URL realUrl = new URL(url);

// 初始化一個鏈接到那個url的連接

URLConnection connection = realUrl.openConnection();

// 開始實際的連接

connection.connect();

// 初始化 BufferedReader輸入流來讀取URL的響應

in = new BufferedReader(new InputStreamReader(

connection.getInputStream()));

// 用來臨時存儲抓取到的每一行的數據

String line;

while ((line = in.readLine()) != null) {

// 遍歷抓取到的每一行并將其存儲到result里面

result += line;

}

} catch (Exception e) {

System.out.println("發送GET請求出現異常！" + e);

e.printStackTrace();

}

// 使用finally來關閉輸入流

finally {

try {

if (in != null) {

in.close();

}

} catch (Exception e2) {

e2.printStackTrace();

}

return result;

}

static String RegexString(String targetStr, String patternStr) {

// 定義一個樣式模板，此中使用正則表達式，括號中是要抓的內容

// 相當于埋好了陷阱匹配的地方就會掉下去

Pattern pattern = Pattern.compile(patternStr);

// 定義一個matcher用來做匹配

Matcher matcher = pattern.matcher(targetStr);

// 如果找到了

if (matcher.find()) {

// 打印出結果

return matcher.group(1);

}

return "Nothing";

}

public static void main(String[] args) {

// 定義即將訪問的鏈接

String url = "http://www.baidu.com";

// 訪問鏈接并獲取頁面內容

String result = SendGet(url);

// 使用正則匹配圖片的src內容

String imgSrc = RegexString(result, "src=\"(.+?)\"");

// 打印結果

System.out.println(imgSrc);

}

這樣我們就能用java抓出百度LOGO的鏈接了。

好吧雖然花了很多時間講百度，但是基礎要打扎實啦，下次我們正式開始抓知乎咯！~

原文链接：https://hbdhgg.com/2/150986.html

发表评论: