python lambda函數，python處理HTML的函數庫,【整理】關于Python中的html處理庫函數BeautifulSoup使用注意事項...

2023-12-25 阅读 30 评论 0

摘要：此處不打算解釋具體用法，因為官方主頁中有說明：以及網上也有很多資料解釋，具體是如何使用BeautifulSoup的。此處只是記錄，在使用過程中，遇到的一些問題，以及如何解決的，或者是使用時候，有哪些需要注意的事情。1.關于

此處不打算解釋具體用法，因為官方主頁中有說明：

以及網上也有很多資料解釋，具體是如何使用BeautifulSoup的。

此處只是記錄，在使用過程中，遇到的一些問題，以及如何解決的，或者是使用時候，有哪些需要注意的事情。

1.關于不支持相關的問題

如果要解析的html中包含類似于：

python lambda函數、等字樣的字符串，此處3.0.6的BeautifulSoup會解析出錯的。

具體相關解釋去看：

2.不支持html中一些屬性/字符的深度嵌套

如果解析的html中包含一些特殊的情況，比如

sina的一個博客帖子：

其html源碼中包含這樣的：。。。。。。。。。。。。。。。

爬蟲python、那么此部分內容，就會解析失敗。

此處我用了代碼：# handle special case for http://blog.sina.com.cn/s/blog_5058502a01017j3j.html

processedHtml = processedHtml.replace('', "");

processedHtml = processedHtml.replace("", "");

去處理，然后再去解析，就可以了。