python提取html文件中的內容,Python爬蟲基礎:常用HTML標簽和Javascript入門

 2023-10-04 阅读 26 评论 0

摘要:1 ?HTML基礎大部分HTML標簽是閉合的,由開始標簽和結束標簽構成,二者之間是要顯示的內容,例如:<title>網頁標題</title>。也有的HTML標簽是沒有結束標簽的,例如:<br />和<hr>。(1)h標簽在HT

1 ?HTML基礎

大部分HTML標簽是閉合的,由開始標簽和結束標簽構成,二者之間是要顯示的內容,例如:<title>網頁標題</title>。也有的HTML標簽是沒有結束標簽的,例如:<br />和<hr>。

(1)h標簽

在HTML代碼中,使用h1到h6表示不同級別的標題,其中h1級別的標題字體最大,h6級別的標題字體最小。該標簽的用法為:

<h1>一級標題</h1>

<h2>二級標題</h2>

<h3>三級標題</h3>

(2)p標簽

python提取html文件中的內容,在HTML代碼中,p標簽表示段落,用法為:

<p>這是一個段落</p>

(3)a標簽

在HTML代碼中,a標簽表示超鏈接,使用時需要指定鏈接地址(由href屬性來指定)和在頁面上顯示的文本,用法為:

<a href="http://www.baidu.com">點這里</a>

(4)img標簽

在HTML代碼中,img標簽用來顯示一個圖像,并使用src屬性指定圖像文件地址,可以使用本地文件,也可以指定網絡上的圖片。例如:

<img?src="Python可以這樣學.jpg" width="200" height="300" />

<img?src="http://www.tup.tsinghua.edu.cn/upload/bigbookimg/072406-01.jpg" width="200" height="300" />

(5)table、tr、td標簽

python html 界面開發、在HTML代碼中,table標簽用來創建表格,tr用來創建行,td用來創建單元格,用法為:

<table border="1">

????<tr>

????????<td>第一行第一列</td>

????????<td>第一行第二列</td>

????</tr>

????<tr>

????????<td>第二行第一列</td>

????????<td>第二行第二列</td>

????</tr>

</table>

(6)ul、ol、li

在HTML代碼中,ul標簽用來創建無序列表,ol標簽用來創建有序列表,li標簽用來創建其中的列表項。例如,下面是ul和li標簽的用法:

<ul id="colors" name="myColor">

????<li>紅色</li>

????<li>綠色</li>

????<li>藍色</li>

</ul>

(7)div標簽

在HTML代碼中,div標簽用來創建一個塊,其中可以包含其他標簽,例如:

<div id="yellowDiv" style="background-color:yellow;border:#FF0000 1px solid;">

????<ol>

????????<li>紅色</li>

????????<li>綠色</li>

????????<li>藍色</li>

????</ol>

</div>

<div id="reddiv" style="background-color:red">

????<p>第一段</p>

????<p>第二段</p>

</div>

2 ?JavaScript基礎

用python做網頁與html,JavaScript是由客戶端瀏覽器解釋執行的弱類型腳本語言,大幅度提高網頁的瀏覽速度和交互能力,提高了用戶體驗。

(1)在網頁中使用JavaScript代碼的方式

可以在HTML標簽的事件屬性中直接添加JavaScript代碼。例如,把下面的代碼保存為index.html文件并使用瀏覽器打開,單擊按鈕“保存”,網頁會彈出提示“保存成功”。

<html>

????<body>

????????<form>

????????????<input type="button" value="保存" onClick="alert('保存成功');">

????????</form>

????</body>

</html>

對于較多但僅在個別網頁中用到的JavaScript代碼,可以寫在網頁中的<script>標簽中。例如,下面的代碼保存為index.html并使用瀏覽器打開,會發現頁面上顯示的是“動態內容”而不是“靜態內容”。在這段代碼中要注意,<script></script>這一對標簽要放在<body></body>標簽的后面,否則由于頁面還沒有渲染完,所以獲取指定id的div會失敗。

<html>

????<body>

????????<div id="test">靜態內容</div>

????</body>

????<script type="text/javascript">

????????document.getElementById("test").innerHTML="動態內容";

????</script>

</html>

如果一個網站中會用到大量的JavaScript代碼,一般會把這些代碼按功能劃分到不同函數中,并把這些函數封裝到一個擴展名為js的文件中,然后在網頁中使用。例如,和網頁在同一個文件夾中的myfunctions.js內容如下:

function modify(){

????document.getElementById("test").innerHTML="動態內容";

}

在下面的頁面文件中,把外部文件myfunctions.js導入,然后調用了其中的函數:

<html>

<head>

????<script type="text/javascript" src="myfunctions.js"></script>

</head>

????<body>

????????<div id="test">靜態內容</div>

????</body>

????<script type="text/javascript">modify();</script>

</html>

python網頁爬蟲代碼,(2)常用JavaScript事件

如果不在HTML代碼中說明,那么在<script>和</script>這兩個標簽的JavaScript代碼在頁面打開和每次刷新時都會得到運行,例如本節的第二段和第三段代碼所演示。但有些JavaScript代碼需要在特定的時機才可以運行,例如本節第一段代碼,只有單擊頁面的按鈕之后才會執行okClick屬性指定的JavaScript代碼,這種機制叫做事件驅動。得益于事件驅動機制,我們可以指定某段代碼在什么情況下才會運行,例如頁面加載時(onLoad事件)、鼠標單擊時(onClick事件)、鍵盤按鍵時(onkeypress事件)等等。

把下面的代碼保存為index.html并使用瀏覽器打開,會發現在每次頁面加載時都會彈出提示,但在頁面上進行其他操作時,并不會彈出提示。

<html>

????<body onLoad="alert('頁面開始加載');">

????????<div id="test">靜態內容</div>

????</body>

</html>

除了常用的事件之外,還有一些特殊的方式可以執行JavaScript代碼。例如,下面的代碼演示了在鏈接標簽<a>中使用href屬性指定JavaScript代碼的用法。

<html>

????<script type="text/javascript">

????????function test(){alert('提示信息');}

????</script>

????<body>

????????<a href="javascript:test();">點這里</a>

????</body>

</html>

(3)常用JavaScript對象

常用的JavaScript對象有navigator、window、location、document、history、image、form等等,這里簡單介紹一下window和document對象的用法。

學爬蟲需要學html嗎。JavaScript對象window對象表示瀏覽器窗口,是所有對象的頂層對象,會在<body>或<frameset>每次出現時自動創建,在同一個窗口中訪問其他對象時,可以省略前綴“window.”。前面幾段代碼中的alert()實際上就是window對象的眾多方法之一,除此之外,還有confirm()、open()、prompt()、setInterval()、focus()、home()、close()、back()、forward()等等。下面的代碼演示了prompt()方法的用法,將其保存為文件index.html并使用瀏覽器打開,會提示用戶輸入任意內容,然后在頁面上輸出相應的信息。

<html>

????<script type="text/javascript">

????????var city = prompt("請輸入一個城市名稱:", "煙臺");

????????document.write("你輸入的是:"+city);

????</script>

????<body></body>

</html>

JavaScript對象document表示當前HTML文檔,可用來訪問頁面上所有元素,常用的方法有write()、getElementById()等等。例如,上一段代碼中演示了document對象write()方法的用法,本節(1)部分中的第二段代碼演示了document對象getElementById()方法的用法。

當網頁中包含<img>標簽時,會自動建立image對象,網頁中的圖像可以通過document對象的images數組來訪問,或者使用圖像對象的名稱進行訪問。例如,把下面的代碼保存為文件index.html,此時頁面上會顯示圖像文件1.jpg的內容,單擊該圖像時會切換成為2.jpg的內容。

<html>

????<body>

????????<img?name="img1" src="1.jpg"

?????????????onClick="document.img1.src='2.jpg';" />

????</body>

</html>

?

--------董付國老師Python系列教材--------

1)《Python程序設計(第2版)》(2018年8月第8次印刷)

html標簽大全?2)《Python可以這樣學》(2018年7月第6次印刷)(本書已發行繁體版)

3)《Python程序設計基礎(第2版)》(2018年8月第4次印刷)

4)《中學生可以這樣學Python》2018年5月第2次印刷)

5)《Python程序設計開發寶典》(2018年2月第3次印刷)

6)《玩轉Python輕松過二級》(2018年7月第3次印刷)

7)《Python程序設計基礎與應用》(2018年9月上架)

python菜鳥教程,董付國老師6本Python系列圖書閱讀指南

董付國老師6本Python系列教材被北大、復旦等近百所高校選作教材

熱烈慶祝《Python可以這樣學》在臺灣發行繁體版

董老師127課免費視頻地址: https://pan.baidu.com/s/1jJeAs8Q 密碼: px59

----------相關閱讀----------

教學課件

html嵌入javascript?1900頁Python系列PPT分享一:基礎知識(106頁)

1900頁Python系列PPT分享二:Python序列(列表、元組、字典、集合)(154頁)

1900頁Python系列PPT分享三:選擇與循環結構語法及案例(96頁)

1900頁Python系列PPT分享四:字符串與正則表達式(109頁)

1900頁Python系列PPT分享五:函數設計與應用(134頁)

1900頁Python系列PPT分享六:面向對象程序設計(86頁)

python爬取本地html。1900頁Python系列PPT分享七:文件操作(132頁)

1900頁Python系列PPT分享八:異常處理結構與程序調試、測試(70頁)

報告PPT(163頁):基于Python語言的課程群建設探討與實踐

非計算機專業《Python程序設計基礎》教學參考大綱

計算機相關專業“Python程序設計”教學大綱(參考)

報告PPT(123頁):Python編程基礎精要

python解析html。《Python程序設計》實驗指導書(30個實驗)

系列題庫分享

1000道Python題庫系列分享一(17道)

1000道Python題庫系列分享二(48道)

1000道Python題庫系列分享三(30道)

1000道Python題庫系列分享四(40道)

libwebp開源庫10分漏洞。1000道Python題庫系列分享五(40道)

1000道Python題庫系列分享六(40道)

1000道Python題庫系列分享七(30道)

1000道Python題庫系列分享八(29道)

1000道Python題庫系列分享九(31道)

1000道Python題庫系列分享十(37道)

python爬取網頁,1000道Python題庫系列分享十一(9道)

1000道Python題庫系列分享十二(9道編程題)

1000道Python題庫系列分享13(22道填空題)

相關閱讀

Python+selenium+PhantomJS獲取百度搜索結果真實鏈接地址

Python 3.6模擬輸入并爬取百度前10頁密切相關鏈接

python寫html?手把手教你使用Python+scrapy爬取山東各城市天氣預報

Python爬蟲系列:使用selenium+Edge查詢指定城市天氣情況

Python爬蟲系列:判斷目標網頁編碼的幾種方法

BeautifulSoup解析庫select方法實例——獲取企業信息

Python批量爬取微信公眾號文章中的圖片

Python裸奔也瘋狂:批量爬取中國工程院院士信息

html爬蟲代碼?Python爬蟲擴展庫scrapy選擇器用法入門(一)

Python使用Scrapy爬蟲框架爬取天涯社區小說“大宗師”全文

Python不使用scrapy框架而編寫的網頁爬蟲程序

Python爬蟲擴展庫BeautifulSoup4用法精要

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/5/112627.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息