python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql

2023-09-18 阅读 26 评论 0

摘要：在编程中，我们如果想要把数据转入数据库中，首先会选择 MySQL数据库。因为MySQL数据库体积小、速度快、总体拥有成本低、开放源代码，其有着广泛的应用，例如我们使用python爬虫微博热搜，就可以使用selenium爬取微博热搜存入Mysql。本文介绍使

在编程中，我们如果想要把数据转入数据库中，首先会选择 MySQL数据库。因为MySQL数据库体积小、速度快、总体拥有成本低、开放源代码，其有着广泛的应用，例如我们使用python爬虫微博热搜，就可以使用selenium爬取微博热搜存入Mysql。本文介绍使用python爬虫将爬取微博热搜存入Mysql的过程。

爬虫python代码？一、爬取微博热搜存入Mysql思路

1、使用selenium对目标网页进行请求；

python爬取网页？2、使用xpath对网页元素进行定位，遍历获得所有数据；

3、使用pandas生成一个Dataframe对像，直接存入数据库。

爬虫python的爬取步骤。二、爬取微博热搜存入Mysql实现

1、获取微博热搜链接和标题内容all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a') #得到所有数据

context = [i.text for i in c] # 得到标题内容

links = [i.get_attribute('href') for i in c] # 得到link

2、使用zip函数，将date，context，links合并

zip函数是将几个列表合成一个列表，并且按index对分列表的数据合并成一个元组，这个可以生产pandas对象。dc = zip(dates, context, links)

pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])

3、链接到数据库enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")