此處不打算解釋具體用法,因為官方主頁中有說明:
以及網上也有很多資料解釋,具體是如何使用BeautifulSoup的。
此處只是記錄,在使用過程中,遇到的一些問題,以及如何解決的,或者是使用時候,有哪些需要注意的事情。
1.關于不支持相關的問題
如果要解析的html中包含類似于:
python lambda函數、等字樣的字符串,此處3.0.6的BeautifulSoup會解析出錯的。
具體相關解釋去看:
2.不支持html中一些屬性/字符的深度嵌套
如果解析的html中包含一些特殊的情況,比如
sina的一個博客帖子:
其html源碼中包含這樣的:。。。。。。。。。。。。。。。
爬蟲python、那么此部分內容,就會解析失敗。
此處我用了代碼:# handle special case for http://blog.sina.com.cn/s/blog_5058502a01017j3j.html
processedHtml = processedHtml.replace('', "");
processedHtml = processedHtml.replace("", "");
去處理,然后再去解析,就可以了。
版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。
工作时间:8:00-18:00
客服电话
电子邮件
admin@qq.com
扫码二维码
获取最新动态