前言
本文的文字及圖片來源于網絡,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯系我們以作處理。
喜歡的朋友歡迎關注小編
當我們出去旅游時,會看這個地方有哪些旅游景點,景點價格、開放時間、用戶的評論等。
本文基于Python網絡爬蟲技術,以hao123旅游網為例,獲取旅游景點信息。
項目目標
獲取網站的景點名稱、開放時間、精彩點評、價格等信息。
涉及的庫和網站
先列出網址,如下所示:
網址:https://go.hao123.com/ticket?city=%E5%B9%BF%E5%B7%9E&theme=all&pn=1
網址city=%E5%B9%BF%E5%B7%9E指的是廣州這個城市、pn指的是頁數。
需要用到的庫:requests、lxml、pprint
具體實現
1. 導入我們需要的庫
importrequestsfrom lxml importetreefrom pprint import pprint
2. 導入庫之后,我們定義一個class類,然后定義一個init方法繼承self再定義一個主函數main,定義一個init方法:首先準備url地址,headers,如下圖所示。
3. 定義一個請求函數,獲取響應數據函數:
4. 請求到數據后,我們需要把這個數據進行解析:
5. 獲取景點名稱二級頁面鏈接:使用xpath查找鏈接路徑用谷歌瀏覽器選擇開發者工具或者按F12,選擇Elements按數字1、2操作找到旅游景點名稱二級頁面鏈接。
6. 根據分析,我們可以擼下代碼。
7. 獲取二級頁面鏈接后,發送請求獲取響應,解析數據。定義一個字典,保存景點名稱、開放時間、精彩點評、價格。使用判斷語句判斷里面內容是否是空的。
8. 最后定義一個main函數,如下圖所示。
效果展示
點擊綠色按鈕運行,將結果顯示在控制臺,如下圖所示。輸入你要爬取的頁數。
版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。
工作时间:8:00-18:00
客服电话
电子邮件
admin@qq.com
扫码二维码
获取最新动态