爬蟲python,Scrapy創建zentao爬蟲

 2023-11-19 阅读 26 评论 0

摘要:1.安裝好Scrapy爬蟲框架 2.切換到F盤的wooyun目錄下執行:scrapy startproject zentao 這個命令會在當前目錄下創建一個新目錄zentao,它的結構如下: 爬蟲python、 3.通過tree /f命令查看目錄結果 這些文件主要是: scrapy.cfg: 項目配置文件zentao/

1.安裝好Scrapy爬蟲框架

2.切換到F盤的wooyun目錄下執行:scrapy startproject zentao

這個命令會在當前目錄下創建一個新目錄zentao,它的結構如下:

爬蟲python、

3.通過tree /f命令查看目錄結果

這些文件主要是:

  • scrapy.cfg: 項目配置文件
  • zentao/: 項目python模塊, 呆會代碼將從這里導入
  • zentao/items.py: 項目items文件
  • zentao/pipelines.py: 項目管道文件
  • zentao/settings.py: 項目配置文件
  • zentao/spiders: 放置spider的目錄

python寫爬蟲。?

定義Item

Items是將要裝載抓取的數據的容器,它工作方式像python里面的字典,但它提供更多的保護,比如對未定義的字段填充以防止拼寫錯誤。

它通過創建一個scrapy.item.Item類來聲明,定義它的屬性為scrpy.item.Field對象,就像是一個對象關系映射(ORM).
我們通過將需要的item模型化,來控制從dmoz.org獲得的站點數據,比如我們要獲得站點的名字,url和網站描述,我們定義這三種屬性的域。要做到這點,我們編輯在tutorial目錄下的items.py文件,我們的Item類將會是這樣

from scrapy.item import Item, Field 
class DmozItem(Item):title = Field() link = Field() ??? desc = Field()

剛開始看起來可能會有些困惑,但是定義這些item能讓你用其他Scrapy組件的時候知道你的 items到底是什么。

python爬蟲scrapy框架、轉載于:https://www.cnblogs.com/qmfsun/p/6184647.html

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/2/180225.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息