python提取html文件中的內容，Python爬蟲基礎：常用HTML標簽和Javascript入門-基礎知識庫-匯編語言學習筆記

python提取html文件中的內容，Python爬蟲基礎：常用HTML標簽和Javascript入門

2023-10-04 阅读 26 评论 0

摘要：1 ?HTML基礎大部分HTML標簽是閉合的，由開始標簽和結束標簽構成，二者之間是要顯示的內容，例如：<title>網頁標題</title>。也有的HTML標簽是沒有結束標簽的，例如：<br />和<hr>。（1）h標簽在HT

1 ?HTML基礎

大部分HTML標簽是閉合的，由開始標簽和結束標簽構成，二者之間是要顯示的內容，例如：<title>網頁標題</title>。也有的HTML標簽是沒有結束標簽的，例如：<br />和<hr>。

（1）h標簽

在HTML代碼中，使用h1到h6表示不同級別的標題，其中h1級別的標題字體最大，h6級別的標題字體最小。該標簽的用法為：

（2）p標簽

python提取html文件中的內容，在HTML代碼中，p標簽表示段落，用法為：

<p>這是一個段落</p>

（3）a標簽

在HTML代碼中，a標簽表示超鏈接，使用時需要指定鏈接地址（由href屬性來指定）和在頁面上顯示的文本，用法為：

（4）img標簽

在HTML代碼中，img標簽用來顯示一個圖像，并使用src屬性指定圖像文件地址，可以使用本地文件，也可以指定網絡上的圖片。例如：

<img?src="Python可以這樣學.jpg" width="200" height="300" />

<img?src="http://www.tup.tsinghua.edu.cn/upload/bigbookimg/072406-01.jpg" width="200" height="300" />

（5）table、tr、td標簽

python html 界面開發、在HTML代碼中，table標簽用來創建表格，tr用來創建行，td用來創建單元格，用法為：

????<tr>

????????<td>第一行第一列</td>

????????<td>第一行第二列</td>

????</tr>

????<tr>

????????<td>第二行第一列</td>

????????<td>第二行第二列</td>

????</tr>

</table>

（6）ul、ol、li

在HTML代碼中，ul標簽用來創建無序列表，ol標簽用來創建有序列表，li標簽用來創建其中的列表項。例如，下面是ul和li標簽的用法：

????<li>紅色</li>

????<li>綠色</li>

????<li>藍色</li>

</ul>

（7）div標簽

在HTML代碼中，div標簽用來創建一個塊，其中可以包含其他標簽，例如：

????<ol>

????????<li>紅色</li>

????????<li>綠色</li>

????????<li>藍色</li>

????</ol>

</div>

????<p>第一段</p>

????<p>第二段</p>

</div>

2 ?JavaScript基礎

用python做網頁與html，JavaScript是由客戶端瀏覽器解釋執行的弱類型腳本語言，大幅度提高網頁的瀏覽速度和交互能力，提高了用戶體驗。

（1）在網頁中使用JavaScript代碼的方式

可以在HTML標簽的事件屬性中直接添加JavaScript代碼。例如，把下面的代碼保存為index.html文件并使用瀏覽器打開，單擊按鈕“保存”，網頁會彈出提示“保存成功”。

<html>

????<body>

????????<form>

????????????<input type="button" value="保存" onClick="alert('保存成功');">

????????</form>

????</body>

</html>

對于較多但僅在個別網頁中用到的JavaScript代碼，可以寫在網頁中的<script>標簽中。例如，下面的代碼保存為index.html并使用瀏覽器打開，會發現頁面上顯示的是“動態內容”而不是“靜態內容”。在這段代碼中要注意，<script></script>這一對標簽要放在<body></body>標簽的后面，否則由于頁面還沒有渲染完，所以獲取指定id的div會失敗。

<html>

????<body>

????????<div id="test">靜態內容</div>

????</body>

????<script type="text/javascript">

????????document.getElementById("test").innerHTML="動態內容";

????</script>

</html>

如果一個網站中會用到大量的JavaScript代碼，一般會把這些代碼按功能劃分到不同函數中，并把這些函數封裝到一個擴展名為js的文件中，然后在網頁中使用。例如，和網頁在同一個文件夾中的myfunctions.js內容如下：

function modify(){

????document.getElementById("test").innerHTML="動態內容";

}

在下面的頁面文件中，把外部文件myfunctions.js導入，然后調用了其中的函數：

<html>

<head>

????<script type="text/javascript" src="myfunctions.js"></script>

</head>

????<body>

????????<div id="test">靜態內容</div>

????</body>

????<script type="text/javascript">modify();</script>

</html>

python網頁爬蟲代碼，（2）常用JavaScript事件

如果不在HTML代碼中說明，那么在<script>和</script>這兩個標簽的JavaScript代碼在頁面打開和每次刷新時都會得到運行，例如本節的第二段和第三段代碼所演示。但有些JavaScript代碼需要在特定的時機才可以運行，例如本節第一段代碼，只有單擊頁面的按鈕之后才會執行okClick屬性指定的JavaScript代碼，這種機制叫做事件驅動。得益于事件驅動機制，我們可以指定某段代碼在什么情況下才會運行，例如頁面加載時（onLoad事件）、鼠標單擊時（onClick事件）、鍵盤按鍵時（onkeypress事件）等等。

把下面的代碼保存為index.html并使用瀏覽器打開，會發現在每次頁面加載時都會彈出提示，但在頁面上進行其他操作時，并不會彈出提示。

<html>

????<body onLoad="alert('頁面開始加載');">

????????<div id="test">靜態內容</div>

????</body>

</html>

除了常用的事件之外，還有一些特殊的方式可以執行JavaScript代碼。例如，下面的代碼演示了在鏈接標簽<a>中使用href屬性指定JavaScript代碼的用法。

<html>

????<script type="text/javascript">

????????function test(){alert('提示信息');}

????</script>

????<body>

????????<a href="javascript:test();">點這里</a>

????</body>

</html>

（3）常用JavaScript對象

常用的JavaScript對象有navigator、window、location、document、history、image、form等等，這里簡單介紹一下window和document對象的用法。

學爬蟲需要學html嗎。JavaScript對象window對象表示瀏覽器窗口，是所有對象的頂層對象，會在<body>或<frameset>每次出現時自動創建，在同一個窗口中訪問其他對象時，可以省略前綴“window.”。前面幾段代碼中的alert()實際上就是window對象的眾多方法之一，除此之外，還有confirm()、open()、prompt()、setInterval()、focus()、home()、close()、back()、forward()等等。下面的代碼演示了prompt()方法的用法，將其保存為文件index.html并使用瀏覽器打開，會提示用戶輸入任意內容，然后在頁面上輸出相應的信息。

<html>

????<script type="text/javascript">

????????var city = prompt("請輸入一個城市名稱：", "煙臺");

????????document.write("你輸入的是："+city);

????</script>

????<body></body>

</html>

JavaScript對象document表示當前HTML文檔，可用來訪問頁面上所有元素，常用的方法有write()、getElementById()等等。例如，上一段代碼中演示了document對象write()方法的用法，本節（1）部分中的第二段代碼演示了document對象getElementById()方法的用法。

當網頁中包含<img>標簽時，會自動建立image對象，網頁中的圖像可以通過document對象的images數組來訪問，或者使用圖像對象的名稱進行訪問。例如，把下面的代碼保存為文件index.html，此時頁面上會顯示圖像文件1.jpg的內容，單擊該圖像時會切換成為2.jpg的內容。

<html>

????<body>

????????<img?name="img1" src="1.jpg"

?????????????onClick="document.img1.src='2.jpg';" />

????</body>

</html>

--------董付國老師Python系列教材--------

1）《Python程序設計（第2版）》（2018年8月第8次印刷）

html標簽大全？2）《Python可以這樣學》（2018年7月第6次印刷）（本書已發行繁體版）

3）《Python程序設計基礎（第2版）》（2018年8月第4次印刷）

4）《中學生可以這樣學Python》2018年5月第2次印刷）