AV无码成人网,中出制服中出丝袜中文,精品久久久久av网

主頁 > 知識庫 > python實現scrapy爬蟲每天定時抓取數據的示例代碼

python實現scrapy爬蟲每天定時抓取數據的示例代碼

1. 前言。

1.1. 需求背景。

每天抓取的是同一份商品的數據，用來做趨勢分析。
要求每天都需要抓一份，也僅限抓取一份數據。
但是整個爬取數據的過程在時間上并不確定，受本地網絡，代理速度，抓取數據量有關，一般情況下在20小時左右，極少情況下會超過24小時。

1.2. 實現功能。

通過以下三步，保證爬蟲能自動隔天抓取數據：
每天凌晨00：01啟動監控腳本，監控爬蟲的運行狀態，一旦爬蟲進入空閑狀態，啟動爬蟲。

一旦爬蟲執行完畢，自動退出腳本，結束今天的任務。

一旦腳本距離啟動時間超過24小時，自動退出腳本，等待第二天的監控腳本啟動，重復這三步。

2. 環境。

python 3.6.1

系統：win7

IDE：pycharm

安裝過scrapy

3. 設計思路。

3.1. 前提：

目前爬蟲是通過scrapy模塊自帶的cmdline.execute來啟動的。

from scrapy import cmdline
cmdline.execute('scrapy crawl mySpider'.split())

3.2. 將自動執行腳本做到scrapy爬蟲的外部

（1）每天凌晨00：01啟動腳本（控制腳本的存活時間為24小時），監測爬蟲的運行狀態（需要用一個標記信息來表示爬蟲的狀態：運行還是停止）。

如果爬蟲處于運行狀態（前一天爬取數據尚未結束），進入第（2）步；
如果爬蟲處于非運行狀態（前一天的爬取任務已完成，今天的尚未開始），進入第（3）步；

（2）腳本進入等待階段，每隔10分鐘，檢查一下爬蟲的運行狀態，如（1）。但是一旦發現，腳本的等待時間超過了24小時，則自動退出腳本，因為第二天的監測腳本已經開始運行了，接替了它的任務。

（3）做一些爬蟲啟動前的準備工作（刪除用來續爬的文件，防止爬蟲不運行了），啟動爬蟲爬取數據，待爬蟲正常結束后，退出腳本，完成當天的爬取任務。

4. 準備工作。

4.1. 標記爬蟲的運行狀態。

通過判斷文件是否存在的方式來判斷爬蟲是否處于運行狀態：

在爬蟲啟動時，創建一個isRunning.txt文件。
在爬蟲結束時，刪除這個isRunning.txt文件。

那么isRunning.txt存在，就說明爬蟲正在運行；文件不存在，就說明爬蟲不在運行。

# 文件pipelines.py
# 爬蟲啟動時
checkFile = "isRunning.txt"
class myPipeline:
  def open_spider(self, spider):
    self.client = MongoClient('localhost:27017') # 連接Mongodb
    self.db = self.client['mydata']        # 待存儲數據的數據庫mydata
    f = open(checkFile, "w")     # 創建一個文件，代表爬蟲在運行中
    f.close()

# 文件pipelines.py
# 爬蟲正常結束時
checkFile = "isRunning.txt"
class myPipeline:
  def close_spider(self, spider):
    self.client.close()
    isFileExsit = os.path.isfile(checkFile)
    if isFileExsit:
      os.remove(checkFile)

4.2. 爬蟲支持續爬，能隨時暫停，方便調試。

# 在scrapy項目中添加start.py文件，用于啟動爬蟲
from scrapy import cmdline
# 在爬蟲運行過程中，會自動將狀態信息存儲在crawls/storeMyRequest目錄下，支持續爬
cmdline.execute('scrapy crawl mySpider -s JOBDIR=crawls/storeMyRequest'.split())
# Note:若想支持續爬，在ctrl+c終止爬蟲時，只能按一次，爬蟲在終止時需要進行善后工作，切勿連續多次按ctrl+c

4.3. Log按照每天的日期命名，方便查看和調試

設置Log等級：

# 文件mySpider.py
class mySpider(CrawlSpider):
  name = "mySpider"
  allowed_domains = ['http://photo.poco.cn/']
  custom_settings = {
    'LOG_LEVEL':'INFO', # 減少Log輸出量，僅保留必要的信息
    # ...... 在爬蟲內部用custom_setting可以讓這個配置信息僅對這一個爬蟲生效
  }

以日期為Log文件命名

# 文件settings.py
import datetime
BOT_NAME = 'mySpider'
ROBOTSTXT_OBEY = False
startDate = datetime.datetime.now().strftime('%Y%m%d')
LOG_FILE=f"mySpiderlog{startDate}.txt"

4.4. 為數據按日期存儲到不同的表（mongodb的集合）中

# 文件pipelines.py
import datetime
GALANCE=f'galance{datetime.datetime.now().strftime("%Y%m%d")}' # 表名

class myPipeline:
  def open_spider(self, spider):
    self.client = MongoClient('localhost:27017') # 連接Mongodb
    self.db = self.client['mydata']        # 待存儲數據的數據庫mydata

self.db[GALANCE].insert(dict(item))

4.5. 編寫批處理文件啟動爬蟲

# 文件run.bat
cd /d F:/newClawer20170831/mySpider
call python main.py
pause

5. 實現代碼

5.1. 編寫python腳本

# 文件timerStartDaily.py
from scrapy import cmdline
import datetime
import time
import shutil
import os

recoderDir = r"crawls"  # 這是為了爬蟲能夠續爬而創建的目錄，存儲續爬需要的數據
checkFile = "isRunning.txt" # 爬蟲是否在運行的標志

startTime = datetime.datetime.now()
print(f"startTime = {startTime}")

i = 0
miniter = 0
while True:
  isRunning = os.path.isfile(checkFile)
  if not isRunning:            # 爬蟲不在執行，開始啟動爬蟲
    # 在爬蟲啟動之前處理一些事情，清掉JOBDIR = crawls
    isExsit = os.path.isdir(recoderDir) # 檢查JOBDIR目錄crawls是否存在
    print(f"mySpider not running, ready to start. isExsit:{isExsit}")
    if isExsit:
      removeRes = shutil.rmtree(recoderDir) # 刪除續爬目錄crawls及目錄下所有文件
      print(f"At time:{datetime.datetime.now()}, delete res:{removeRes}")
    else:
      print(f"At time:{datetime.datetime.now()}, Dir:{recoderDir} is not exsit.")
    time.sleep(20)
    clawerTime = datetime.datetime.now()
    waitTime = clawerTime - startTime
    print(f"At time:{clawerTime}, start clawer: mySpider !!!, waitTime:{waitTime}")
    cmdline.execute('scrapy crawl mySpider -s JOBDIR=crawls/storeMyRequest'.split())
    break #爬蟲結束之后，退出腳本
  else:
    print(f"At time:{datetime.datetime.now()}, mySpider is running, sleep to wait.")
  i += 1
  time.sleep(600)    # 每10分鐘檢查一次
  miniter += 10
  if miniter >= 1440:  # 等待滿24小時，自動退出監控腳本
    break

5.2. 編寫bat批處理文件

# 文件runTimerRunDaily.bat
cd /d F:/newClawer20170831/mySpider
call python timerStartDaily.py
pause

6. 部署。

6.1. 添加計劃任務。

參考以下這篇博客部署windows計劃任務：

https://www.jb51.net/article/204879.htm

有關windows計劃任務相關設置的詳細說明如下：

https://technet.microsoft.com/zh-cn/library/cc722178.aspx

6.2. 注意事項。

（1）在添加計劃任務時，要按照如下圖進行勾選（只在用戶登錄時運行），才能彈出下面的cmd任務界面，方便觀察和調試。

（2）由于爬蟲運行時間很長，如果按照默認設置，在凌晨運行實例時，上一次啟動尚未結束，會導致這次啟動失敗，所以要更改默認設置為（如果此任務已經運行：并行運行新實例。保護機制在于每個啟動腳本在等待24小時候會自動退出，來保證不會重復啟動）。

（3）如果想支持續傳，只能按一次 ctrl + c 來停止爬蟲運行。因為終止爬蟲時，爬蟲需要做一些善后工作，如果連續按多次ctrl + c來停止爬蟲，爬蟲將來不及善后，會導致無法續爬。 6.3. 效果展示。

正常執行完成：

正在執行中：

到此這篇關于python實現scrapy爬蟲每天定時抓取數據的示例代碼的文章就介紹到這了,更多相關python scrapy定時抓取內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Python爬蟲框架-scrapy的使用
python scrapy項目下spiders內多個爬蟲同時運行的實現
python爬蟲scrapy基本使用超詳細教程
在python3.9下如何安裝scrapy的方法
python Scrapy爬蟲框架的使用
Python爬蟲基礎之初次使用scrapy爬蟲實例

標簽：河池東莞漢中臨汾德宏重慶長春廊坊

巨人網絡通訊聲明：本文標題《python實現scrapy爬蟲每天定時抓取數據的示例代碼》，本文關鍵詞 python,實現,scrapy,爬蟲,每天,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

下面列出與本文章《python實現scrapy爬蟲每天定時抓取數據的示例代碼》相關的同類信息！

python實現scrapy爬蟲每天定時抓取數據的示例代碼

1. 前言。 1.1. 需求背景。每天抓取的是同一份商品的數據，用來做趨勢分析。要求每天都需要抓一份，也僅限抓取一份數據。但是整個爬取數據的過程在時間上并不確定，受本地網絡...

10-18

北京電銷專用卡（北京電銷專用卡是什么卡）

本文目錄一覽：1、做電話營銷,有沒有好的電話卡推薦?2、北京金融電銷專用電話卡哪里有3、做銷售打電話便宜的卡做電話營...

07-10

青島教育電話群呼系統公司-誠信互利

青島教育電話群呼系統公司企業可以多加研究并使用到實際工作中：技術好，用純IP軟交換技術實現，完全符合下一代電信網...

01-16

貴陽小型外呼系統軟件（貴州外呼系統）

今日給各位共享貴陽小型外呼體系軟件的常識，其間也會對貴州外呼體系進行解說，如果能可巧處理你現在面對的問題，別忘...

上海電銷行業用什么電話卡打電話，找華恒通訊，讓您電銷業績翻倍！！！上海電銷防封穩定高頻通話穩定不封卡 162號段...

11-14

昆山房地產電銷系統辦理費用,電話營銷系統-你知道嗎

昆山房地產電銷系統辦理費用,電話營銷系統類似于數據清洗，以幫助人工進行“去偽存真”獲取真實的銷售線索。自動外呼...

12-17

精準營銷推廣軟件

1、什么是智能語音電話機器人？【精準營銷推廣軟件】 3.人工成本高，工作效率低【精準營銷推廣軟件】 4.電話作為企業與...

10-30

“400受理電話”真的那么好用嗎？

近年來，隨著互聯網的迅速發展，越來越多的企業開始啟用“400受理電話”，即通過開通專門的電話號碼，為客戶提供24小時...

07-21

外賣小哥回應進后廚炒菜：商家出不了餐我很著急已離職

近日，一段美團外賣小哥后廚顛勺視頻爆紅網絡，一位外賣小哥嫌出餐速度太慢，然后……竟然本身就上上上手了。有網友調...

10-16

保險電銷說銀行卡忘帶了（保險電銷說銀行卡忘帶了怎么回事）

本文目錄一覽：1、在銀行取錢忘記拿卡了怎么辦?2、交保險的銀行卡丟了但是要繼續交保險費怎么辦?3、請問交保險的銀行卡...

07-10

.NET 4.5 異步IO 相關實例

在C/S架構中，不管是傳統的winform還是wpf都可能會遇到進行異步操作文件的時候。文件小還好說，直接寫操作代碼。如果是大...

10-18

哪些行業需要電銷機器人（什么行業需要電銷）

今天給各位分享哪些行業需要電銷機器人的知識，其中也會對什么行業需要電銷進行解釋，如果能碰巧解決你現在面臨的問題...

05-17

法律機器人使用介紹

時代在發展，科技在進步，無論你的企業在行業中處于什么樣的地位，無論你的企業在市場上占多大的份額，無論你的企業在...

10-30

哈爾濱電銷專用電話卡靠譜（哈爾濱專業電銷公司）

本文目錄一覽：1、有沒有比較不錯的手機電話卡可以推薦呀?哪個平臺交易更安全?2、什么樣的電銷卡穩定抗封卡?3、電銷卡是...

07-10

佛山市服務外包產業發展專項資金項目開始申報

佛山日報訊記者阮鳳娟報道：記者昨日獲悉，佛山市服務外包產業發展專項資金項目已開始申報，對于服務外包企業在2015年...

10-22

蘇州市抖音代運營公司運營費用需求多少？

企業發展的商場需求，需求借助互聯網途徑，來獲取更多的流量，而抖音是現在互聯網媒體傍邊流量眾多服務途徑之一，能夠...

03-01

江蘇外呼系統卡多少錢（外呼系統報價）

本篇文章給咱們談談江蘇外呼體系卡多少錢，以及外呼體系報價對應的知識點，期望對各位有所協助，不要忘了保藏本站喔。...

11-07

南京代賬專用語音電銷機器人好用嗎-有效!

南京代賬專用語音電銷機器人好用嗎電銷系統可以用來標準公司的客戶關系管理，是營銷管理和渠道營銷以及創業商機管理方...

05-17

成都房地產語音電銷機器人辦理-關于

成都房地產語音電銷機器人辦理從而加快了企業的發展，能夠很大程度上獲取到客戶的一些信息，讓三明呼叫中心系統變得更...

05-18

企業400電話辦理怎樣做，公司辦理400電話需要注意什么

企業400電話辦理怎樣做，公司辦理400電話需要注意什么400電話代理商為你解答。辦理400電話需要提供的資料有:以下資料5條必...

07-20

電銷機器人客戶資料從哪來（電銷機器人是什么）

本篇文章給大家談談電銷機器人客戶資料從哪來，以及電銷機器人是什么對應的知識點，希望對各位有所幫助，不要忘了收藏...

05-16

四川可以接聽的網絡電話

在移動互聯網時代，全球范圍內的溝通需求正不斷增加，人和人之間的溝通和交流也開始變得更加密集和緊迫，因此，在這種...

10-25

武漢房產專用電話營銷機器人價格-[優秀]

武漢房產專用電話營銷機器人價格目前國內手機用戶已達9億，廣州網絡電話用戶規模則到100萬，市場發展前景很大。而相對...

05-17

電銷團隊找外包業務可以嗎（電銷外包服務）

本文目錄一覽： 1、移動外包電話出售套餐作業靠譜嗎2、電話出售外包外包能夠外包嗎？3、借款電銷外包事務能夠外包嗎？...

04-22

福州穩定呼叫中心系統公司,電話營銷線路-[熱門]

福州穩定呼叫中心系統公司,電話營銷線路我們來看看悟空智能話務機器人的工作原理。當銷售錄入自定義之后，機器人就會...

12-16

怎樣舉報電銷機器人公司（怎么投訴機器人電話

本文目錄一覽：1、哪個是告發電銷pos機公司的2、人工智能電話機器人不靠譜啊，天天打電話，打給誰呢？3、跟電話機器人...

11-29

嘉興財稅外呼線路辦理商家,電話線路-專業服務

嘉興財稅外呼線路辦理商家,電話線路方法是在公司名稱上添加一個“招聘”并搜索百度。如果和自己的團隊一起開發真的有...

12-17

電銷卡資源對接高頻不封號

電銷卡資本對接高頻不封號不封號電銷卡,電銷卡不封號,電銷卡星美卡：電信信號，一證3卡，169包2000分鐘的套餐，日高頻...

11-14

智能語音機器人收費標準

智能語音機器人收費標準企業選擇電銷機器人的理由：自動打電話無需人工輸入撥號，客戶資料一鍵批量導入，根據需求設...

03-01

移動外呼系統中心（呼叫中心外呼系統）

今日給各位共享移動外呼體系中心的常識，其間也會對呼叫中心外呼體系進行解說，假如能可巧處理你現在面臨的問題，別忘...

11-06

浙江正規外呼系統平臺（外呼系統收費標準）

本篇文章給大家談談浙江正規外呼系統平臺，以及外呼系統收費標準對應的知識點，希望對各位有所幫助，不要忘了收藏本站...

08-28

中國聯通發布5G部署計劃六本白皮書覆蓋全產業鏈

構建AI使能的CUBE-Net2.0+新一代智能網絡中國聯通網絡技術研究院首席科學家唐雄燕在會議期間介紹了中國聯通網絡轉型及5G推...

10-13

北京哪款網絡電話好用

網絡電話通過線上溝通，建立起高效的網絡電話系統績效管理生態圈，將網絡電話系統的戰略轉化成一整套可執行的績效衡量...

10-25

客戶互動：移動應用和IVR能避免戰爭嗎？（上）

雖然交互式語音應答（IVR）系統仍然在呼叫中心占據主導地位，但是隨著其他客戶服務類型的出現，特別是客戶可以通過智能...

10-19

青島市抖音代運營在運營抖音企業號時有哪些忌諱？

抖音短視頻自打火起來以后它的人氣就沒下來過，許多玩抖音視頻的人都說我想卸載掉抖音視頻，可是你做的到嗎?總之臣妾...

03-01

移動物聯網卡代理官網在哪里？購買渠道有哪些？

萬物互聯這一概念對如今很多人來說并不陌生，而物聯網卡作為實現萬物互聯社會的基礎，也因其對萬事萬物的共聯感知能力...

10-13

解決docker安裝后運行hello-world報錯的問題

在centos7.3上yum安裝了docker V1.13。1 但是在運行：docker run hello-world的時候報錯： # docker run docker.io/hello-world container_linux.go:247:...

10-16

400電話是移動還是電信聯通400電話號碼如何辦理

以400開頭的電話分為以下幾類：4006個電話，是中國聯通(原中國網通)運營的400電話，從15358521011到15358521011，共100萬個號碼。...

01-12

丹麥優傲機器人，業內第一個提出人機協作機器

近年來，伴隨當前市場需求日益加大和資本政策的大力扶持，工業機器人已步入高速發展階段，各種機器人可以勝任越來越多...

10-30

對電話營銷的理解云呼_電話機器人

語音機器人是基于深度的神經網絡算法，由知識標注、自主學習、在線訓練、預測、可拖拽多輪對話引擎等核心模塊組成，...

10-31

火貓獨播DreamHack Masters Malmo馬爾默站：轉會期后首個大賽！

由火貓獨家直播的 CS:GO DreamHack Masters Malmo 站的角逐將于北京時間 8 月 30 日 - 9 月 3 日在瑞典馬爾默進行， 16 支來自世界各地...

10-16

品牌資產報告

建立品牌資產管理系統的第二步，是將追蹤調研及其他相關品牌業績評估的結果以品牌資產報告的形式反映出來，定期(每月...

10-23

京東專屬客服采用天樞智能調度系統變成“全能超人”

午間，在京東客服的工作區，一位用戶透過屏幕正在向客服人員咨詢自己剛剛收到的商品。提供在線服務的客服是一位數碼產...

10-19

win 7系統安裝在傳統硬盤上和固態硬盤的區別是什么？

與傳統的機械硬盤相比，固態硬盤（SSD）有很大的優勢，那么固態硬盤到底有什么好處呢？首先，在安裝win 7的時候，如果用...

10-20

語音群呼外呼系統（語音群呼平臺）

本篇文章給大家談談語音群呼外呼系統，以及語音群呼平臺對應的知識點，希望對各位有所幫助，不要忘了收藏本站喔。本...

11-06

福建電銷機器人哪家好（智能電銷機器人好嗎）

本文目次一覽： 1、電銷呆板人哪家的靠譜？ 2、電銷呆板人真的那么好用嗎哪家的對照靠譜 3、福州那邊有德律風呆板人，...

11-25

電銷封卡的處理（電話營銷封卡）

本文目錄一覽：1、我們做電銷的老是被封卡,業務都開展不了,怎么辦2、電話銷售被封號了怎么解決?3、我是做電銷這塊的想大...

07-10

傳承使命烽火通信領跑新一輪國干建設

2008年以來我國3G網絡和FTTx快速發展，傳輸側帶寬需求日益增長，干線資源急待進一步擴寬，國家適時提出的寬帶中國戰略也...

01-16

400電話通話資費怎么收的呢？

大家都知道400電話是采用主被叫分攤付費模式，但并不了解400電話實際通話是怎么扣費的，其實在辦理400電話套餐后，就有相...

05-09

湛江電銷防封軟件好用嗎

電銷防封軟件防止封號成本低，高效智能成倍提升銷售效率！客戶跟進隨時穿透銷售進度，穩定客源降低客戶流失率！近年...

11-15

python實現scrapy爬蟲每天定時抓取數據的示例代碼

10-18

本頁收集關于python實現scrapy爬蟲每天定時抓取數據的示例代碼的相關信息資訊供網民參考！

推薦文章

上一篇：使用bandit對目標python代碼進行安全函數掃描的案例分析

下一篇：基于Python的接口自動化unittest測試框架和ddt數據驅動詳解

一起分享吧

亚洲综合原千岁中文字幕_国产精品99久久久久久久vr_无码人妻aⅴ一区二区三区浪潮_成人h动漫精品一区二区三

python實現scrapy爬蟲每天定時抓取數據的示例代碼

1. 前言。

1.1. 需求背景。

1.2. 實現功能。

2. 環境。

3. 設計思路。

4. 準備工作。

4.1. 標記爬蟲的運行狀態。

4.2. 爬蟲支持續爬，能隨時暫停，方便調試。

4.3. Log按照每天的日期命名，方便查看和調試

4.5. 編寫批處理文件啟動爬蟲

5. 實現代碼

5.1. 編寫python腳本

6. 部署。

6.1. 添加計劃任務。

6.2. 注意事項。