在上一篇中我們介紹了Beautiful Soup解析庫的使用方法,用解析出數據之后,接下來就是存儲數據的問題了。數據保存的方式多種多樣,最簡單的形式是直接保存成文本文件,比如txt/json/csv....另外還可以保存到數據庫----關系型數據庫--Mysql MSsql,非關系型數據庫 MongoDB、Redis........
爬蟲爬取文本,一、以txt文本文件存儲
from bs4 import BeautifulSoup
import requests
r=requests.get('https://www.baidu.com')
soup=BeautifulSoup(r.content,'lxml')
for bq in soup.select('#u1'):
print(bq.get_text())
with open('hj.txt','w+') as xr:
xr.write(bq.get_text())
##打開方式
r:以只讀模式打開文件,默認模式。
rb:以二進制只讀模式打開一個文件。
r+:以讀寫方式打開一個文件。
rb+:以二進制讀寫方式打開一個文件。文件指針將會放在文件的開頭。
w:以寫入的方式打開一個文件,如果該文件以存在,則將其覆蓋。
wb:以二進制寫入的方式打開一個文件,如果該文件以存在,則將其覆蓋。
w+:以讀寫方式打開一個文件,如果該文件以存在,則將其覆蓋。
a:以追加方式打開一個文件,如果該文件以存在,文件指南將會放在文件結尾。
ab:以二進制追加方式打開一個文件。
a+:以讀寫方式打開一個文件。
ab+:以二進制追加方式打開一個文件,如果該文件已經存在,則文件指針將會放在文件結尾。如果該文件不存在,則創建新文件用于讀寫。
二、JSON文件存儲
JSON:通過對象和數組的組合來表示數據,構造簡潔,是一種輕量級的數據交換格式。
import json
file_name = 'D:/json_file.txt'
nums = [3, 4, 5, 7, 1, 9]
# nums = {"name": "Mike", "age": 12}
with open(file_name, 'w') as file_obj:
'''寫入json文件'''
json.dump(nums, file_obj)
print("寫入json文件:", nums)
with open(file_name) as file_obj:
'''讀取json文件'''
numbers = json.load(file_obj) # 返回列表數據,也支持字典
print("讀取json文件:", numbers)
###下一篇介紹非關系型數據庫MongoDB的使用
版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。
工作时间:8:00-18:00
客服电话
电子邮件
admin@qq.com
扫码二维码
获取最新动态