亚洲综合原千岁中文字幕_国产精品99久久久久久久vr_无码人妻aⅴ一区二区三区浪潮_成人h动漫精品一区二区三

主頁 > 知識庫 > Python爬蟲爬取全球疫情數據并存儲到mysql數據庫的步驟

Python爬蟲爬取全球疫情數據并存儲到mysql數據庫的步驟

熱門標簽:西藏智能外呼系統五星服務 千陽自動外呼系統 在哪里辦理400電話號碼 原裝電話機器人 工廠智能電話機器人 清遠360地圖標注方法 平頂山外呼系統免費 江蘇客服外呼系統廠家 400電話申請服務商選什么

思路:使用Python爬蟲對騰訊疫情網站世界疫情數據進行爬取,封裝成一個函數返回一個

     字典數據格式的對象,寫另一個方法調用該函數接收返回值,和數據庫取得連接后把

     數據存儲到mysql數據庫。

一、mysql數據庫建表

CREATE TABLE world(
 id INT(11) NOT NULL AUTO_INCREMENT,
 dt DATETIME NOT NULL COMMENT '日期',
 c_name VARCHAR(35) DEFAULT NULL COMMENT '國家',
 continent VARCHAR(35) DEFAULT NULL COMMENT '所屬大洲',
 nowConfirm INT(11) DEFAULT NULL COMMENT '累計確診',
 confirm INT(11) DEFAULT NULL COMMENT '當日現存確診',
 confirmAdd INT(11) DEFAULT NULL COMMENT '當日新增確診',
 suspect INT(11) DEFAULT NULL COMMENT '剩余疑似',
 heal INT(11) DEFAULT NULL COMMENT '累計治愈',
 dead INT(11) DEFAULT NULL COMMENT '累計死亡',
 confirmAddCut INT(11) DEFAULT NULL COMMENT 'confirmAddCut',
 confirmCompare INT(11) DEFAULT NULL COMMENT 'confirmCompare',
 nowConfirmCompare INT(11) DEFAULT NULL COMMENT 'nowConfirmCompare',
 healCompare INT(11) DEFAULT NULL COMMENT 'healCompare',
 deadCompare INT(11) DEFAULT NULL COMMENT 'deadCompare',
 PRIMARY KEY(id)
)ENGINE=INNODB DEFAULT CHARSET=utf8mb4;

注意建立的表,數據的名字,數據的長度,數據的類型,主鍵的定義一定要小心仔細。

這里博主出現了幾個小錯誤:

①數據表的主鍵不可以設置為日期,因為在之后爬取數據之后可以看到,網站給的數據是同一天的,

因為主鍵不可以有重復,所以相同的日期是不可以作為主鍵定義的。

②設置int類型的id作為數據表的主鍵,那么存在一個問題,在往表里插入數據的時候,id位置的數據值需要考慮,

這個方法可以解決:可以在傳值的時候把id的值設定為 0,前提是id是自增的,

這樣數據庫是可以自己處理id的,依然是從0開始自增,這樣避免了不給id傳值導致Null的異常。

③博主使用的mysql可視化工具默認在一個頁面顯示30條記錄,在右上角可以改變顯示的記錄數,因為本次插入的

是185條數據,所以在插入完之后如果發現數據不對,可以看看可視化工具是不是有什么設置導致的。

二、下面直接上代碼(爬蟲方法)

"""
獲取全球疫情數據
"""
def get_world_data():
 url='https://api.inews.qq.com/newsqa/v1/automation/foreign/country/ranklist'
 headers={'user-agent': 'WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
 # 創建會話對象
 # session = requests.session()
 # 請求接口
 # result = session.get('https://api.inews.qq.com/newsqa/v1/automation/foreign/country/ranklist')
 # 打印結果
 # print(result.text)
 res = requests.get(url, headers=headers)
 # print(res.text)
 response_data_0 = json.loads(res.text.replace('jQuery34102848205531413024_1584924641755(', '')[:-1]) #轉化json對象
 # print(response_data_0.keys())
 # print(response_data_0)
 response_data_1=response_data_0['data']
 # print(response_data_1)
 # print(response_data_1[0].keys())
 # data = jsonpath.jsonpath(resJson_1, '$.data.*')
 # print(resJson_1.keys())
 # for d in data:
 # res = '日期:' + d['date'] + '--' + d['continent'] + '--' + d['name'] + '--' + '新增確診:' + str(
 # d['confirmAdd']) + '累計確診:' + str(d['confirm']) + '治愈:' + str(d['heal']) + '死亡:' + str(d['dead'])
 # file = r'C:/Users/Administrator/Desktop/world_data.txt'
 # with open(file, 'w+', encoding='utf-8') as f:
 # f.write(res + '\n') # 加\n換行顯示
 # f.close()
 world={}
 for i in response_data_1:
 temp=i['y']+'.'+i['date']
 tup = time.strptime(temp, '%Y.%m.%d')
 dt = time.strftime('%Y-%m-%d', tup) # 改變時間格式,插入數據庫 日期
 # print(ds)
 c_name=i['name'] #國家
 continent=i['continent'] #所屬大洲
 nowConfirm=i['nowConfirm'] #現有確診
 confirm=i['confirm'] #累計確診
 confirmAdd=i['confirmAdd'] #新增確診
 suspect=i['suspect'] #現有疑似
 heal=i['heal'] #累計治愈
 dead=i['dead'] #累計死亡
 confirmAddCut=i['confirmAddCut']
 confirmCompare=i['confirmCompare']
 nowConfirmCompare=i['nowConfirmCompare']
 healCompare=i['healCompare']
 deadCompare=i['deadCompare']
 world[c_name] = {'dt':dt ,
  'continent': continent,
  'nowConfirm': nowConfirm,
  'confirm': confirm,
  'confirmAdd': confirmAdd,
  'suspect': suspect,
  'heal': heal,
  'dead': dead,
  'confirmAddCut': confirmAddCut,
  'confirmCompare': confirmCompare,
  'nowConfirmCompare': nowConfirmCompare,
  'healCompare': healCompare,
  'deadCompare': deadCompare,
  }
 return world

三、插入數據庫

def insert_world():
 """
 更新 world 表
 :return:
 """
 cursor = None
 conn = None
 try:
 dic = get_world_data()
 print(dic)
 conn, cursor = get_conn()
 sql = "insert into world values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"
 sql_query = 'select %s=(select dt from world order by id desc limit 1)' #對比當前最大時間戳
 cursor.execute(sql_query,dic['美國']['dt'])
 if not cursor.fetchone()[0]:
 print(f"{time.asctime()}開始插入世界數據")
 for k, v in dic.items(): # item 格式 {'2021-01-13': {'confirm': 41, 'suspect': 0, 'heal': 0, 'dead': 1}
 cursor.execute(sql, [0,v.get('dt'), k, v.get("continent"), v.get("nowConfirm"),
  v.get("confirm"), v.get("confirmAdd"),v.get("suspect"),v.get("heal"), v.get("dead")
  , v.get("confirmAddCut"), v.get("confirmCompare"), v.get("nowConfirmCompare"), v.get("healCompare"),
 v.get("deadCompare")])
 conn.commit() # 提交事務
 print(f"{time.asctime()}插入世界數據完畢")
 else:
 print(f"{time.asctime()}世界數據已是最新數據!")
 except:
 traceback.print_exc()
 finally:
 close_conn(conn, cursor)

總結一下在完成這兩個方法的過程中遇到的問題,首先是最基礎的問題,數據的類型和格式的轉換,這里主要是指json字符串和

Python里對應的數據對象(list和字典)。

(1)一般來講對我們而言,需要抓取的是某個網站或者某個應用的內容,提取有用的價值。內容一般分為三部分,

結構化的數據、半結構化的數據和非機構化數據。

1.結構化數據:
       可以用統一的結構加以表示的數據??梢允褂藐P系型數據庫表示和存儲,表現為二維形式的數據,一般特點是:數據以行為單位,

  一行數據表示一個實體的信息,每一行的數據的屬性是相同的。
2.半結構化數據:
       結構化數據的一種形式,并不符合關系型數據庫或其他數據表的形式關聯起來的數據模型結構,但包含相關標記,

  用來分隔語義元素以及對記錄和字段進行分層。因此他也被成為自描述的結構。常見的半結構數據有:html,xml和json等、

  實際上是以樹或者圖的結構來存儲的。
       對于半結構化數據,節點中屬性的順序是不重要的,不同的半結構化數據的屬性的個數是不一樣的。這樣的數據格式,

  可以自由的表達很多有用的信息,

  包含自描述信息。所以半結構化數據的擴展性很好,特別適合于在互聯網中大規模傳播。
3.非結構化數據

  就是沒有固定的結構。各種文檔,圖片,視頻或者音頻都屬于非結構化數據。對于這類數據,我們一般直接整體進行存儲,而且一般存儲為二進制形式。

原文鏈接:www.jb51.net/article/208448.htm

json數據      

 json(JavaScript Object Notation,JS對象標記)是一種輕量級的數據交換格式。

基于ECMAScript(w3c制定的JS規范)的一個子集,采用完全獨立于編程語言的文本格式來存儲和表示數據。

簡潔和清晰的層次結構使得JSON成為理想的數據交換語言。

       特點:易于閱讀、易于機器生成、有效提升網絡速度。       

JSON語法規則:

在JS語言中,一切都是對象。因此,任何支持的類型都可以通過json來表示。

例如字符串、數字,對象,數組。
Js中對象和數組是比較特殊并且常用的兩種類型:
       1、對象表示為鍵值對{name:'zhangsan',age:'7'}
       2、數據有逗號分隔[1,2,3,4,5]
       3、花括號保存對象
       4、方括號保存數組。
js的對象就相當于python中的字典
js的數組就相當于Python中的列表
       因為json用來存儲js的對象或者數組,所以在Python中我們可以將json轉化為list或者dict。

解析json的包json:
       json.dumps(python的list或者dict)---->(返回值)---->json字符串。
       json.loads(json字符串)------>(返回值)----->python的list或者dict.

       json.dump(list/dict,fp)—>list,或者字典保存到json文件中。
       json.load(fp)—>list/dict:從json文件中讀出json數據。

       json鍵值對是用來保存js對象的一種方式,和js對象的寫法頁大同小異,比如:
  {“firstName”:“Json”,“Class”:“aid1111”}等價于下面這條js語句:{firstName:“Json”,Class:“aid1111”}。
       很多人搞不清楚json和js對象的關系,甚至誰是誰都不清楚。其實可以這么理解:

  【JSON是JS對象的字符串表達式,他使用文本形式表示一個JS對象的信息,本質是一個字符串。】
        如var obj = {a:“hello”,b:“World”}這是一個js對象。注意,鍵名也是可以用引號包裹的var json = ' {“a”:“hello”,“b”:“World”}'這是一個json字符串,本質上是一個字符串。
       JSON作為數據包格式傳輸的時候具有更高的效率,這是因為JSON不想xml那樣具有嚴格的閉合標簽,這就讓有效數據量與總數據包比大大提升,從而減少同等數據流量的情況下,網絡的傳輸的壓力大大減低。

之前寫過一篇關于爬取中國疫情數據的博客文章,那里爬取的每日疫情數據和全球爬取的疫情數據格式有一點點不同:

這是中國的疫情數據,注意箭頭指的地方,這里的data對應的key是字典

這是全球疫情,注意這里data對應的是list

數據的格式非常重要,因為在后續需要把網頁爬取的數據接受之后,還要把數據導入數據庫,所以中間數據的格式必須清楚,

比如list類型的可以通過下標去訪問,而字典只可以通過name來訪問,字典是不提供索引的,所以不可以通過下標訪問。還

有就是數據庫里的日期格式一定要注意轉換再插入。

四、總結一下爬取數據的步驟:

(1)首先需要導入需要的包:

import requests
import pymysql
import time
import json
import traceback

(2)通過request向被爬取網站的url發起一個請求(如果網站有反爬取手段,需要在請求里加上headers)
獲取headers:

到指定網站,瀏覽器按F12,之后在網絡那一個選項里可以看到。

 (3)獲取和解析數據

 url='https://api.inews.qq.com/newsqa/v1/automation/foreign/country/ranklist'
 headers={'user-agent': 'WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
 
 res = requests.get(url, headers=headers)
 # print(res.text)
 response_data_0 = json.loads(res.text.replace('jQuery34102848205531413024_1584924641755(', '')[:-1]) #轉化json對象

這里進行了第一步解析,通過json.loads( ) 方法把從網頁獲取的json字符串數據轉化成Python對應的list或者字典。

如果第一步解析之后data對應的value不是list,那么可以進行第二次解析,本次操作中,世界疫情數據的data對

應的數據是一個list,所以也就不需要進行第二次轉化,可以直接通過list的下標去訪問。

數據轉化是必要的,在網絡中json字符串傳遞小巧安全速度快,但是我們讀取數據,如果直接對字符串進行操作

會非常不方便,所以我們需要解析json字符串,也就是通過json.loads()方法把字符串轉化成Python對應的list或

者字典對象,這樣我們訪問操作這些數據會變得簡單。

以上就是Python爬蟲爬取全球疫情數據并存儲到mysql數據庫的步驟的詳細內容,更多關于python 爬取疫情數據存儲到mysql的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • 教你如何使用Python快速爬取需要的數據
  • python爬取豆瓣電影TOP250數據
  • python爬取鏈家二手房的數據
  • Python手拉手教你爬取貝殼房源數據的實戰教程
  • Python數據分析之Python和Selenium爬取BOSS直聘崗位
  • python爬蟲之爬取谷歌趨勢數據
  • python selenium實現智聯招聘數據爬取
  • python爬蟲之教你如何爬取地理數據
  • Python爬取騰訊疫情實時數據并存儲到mysql數據庫的示例代碼
  • Python爬蟲之自動爬取某車之家各車銷售數據

標簽:隨州 白城 股票 西安 安慶 日照 天水 錦州

巨人網絡通訊聲明:本文標題《Python爬蟲爬取全球疫情數據并存儲到mysql數據庫的步驟》,本文關鍵詞  Python,爬蟲,爬取,全球,疫情,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python爬蟲爬取全球疫情數據并存儲到mysql數據庫的步驟》相關的同類信息!
  • 本頁收集關于Python爬蟲爬取全球疫情數據并存儲到mysql數據庫的步驟的相關信息資訊供網民參考!
  • 推薦文章
    亚洲 激情| a级黄色毛片免费播放视频| 免费国产一级特黄aa大片在线| 一级女性全黄生活片免费| 国产麻豆精品免费密入口| 国产亚洲免费观看| 精品视频在线观看免费| 久久国产一久久高清| 高清一级做a爱过程不卡视频| 可以免费看毛片的网站| 色综合久久天天综合绕观看| 国产亚洲免费观看| 久久国产精品只做精品| 精品视频一区二区| 黄视频网站免费| 国产一级生活片| 精品国产一区二区三区久| 日本伦理片网站| 高清一级片| 久久精品人人做人人爽97| 国产麻豆精品免费视频| 欧美大片aaaa一级毛片| 天天色色色| 国产不卡在线看| 久草免费在线观看| 日韩欧美一及在线播放| 青青青草视频在线观看| 国产原创视频在线| 韩国三级香港三级日本三级| 久久久久久久男人的天堂| 色综合久久久久综合体桃花网| 成人av在线播放| 天天做人人爱夜夜爽2020毛片| 台湾毛片| 亚洲爆爽| 久久国产影视免费精品| 中文字幕一区二区三区精彩视频| 国产91丝袜在线播放0| 人人干人人插| 天天做日日爱夜夜爽| 欧美激情一区二区三区在线播放| 香蕉视频亚洲一级| 国产91丝袜高跟系列| 日韩一级黄色| 欧美大片a一级毛片视频| 日韩中文字幕在线播放| a级黄色毛片免费播放视频| 日韩中文字幕在线播放| 国产视频久久久| 久久国产影视免费精品| 国产网站免费视频| 日本免费看视频| 九九九国产| 国产一区二区精品| 欧美激情一区二区三区在线播放 | 欧美激情影院| 一级女人毛片人一女人| 国产不卡高清| 日本伦理黄色大片在线观看网站| 四虎论坛| 在线观看成人网 | 国产一区二区精品| 麻豆污视频| 九九免费精品视频| 青青青草影院| 日韩专区第一页| 亚洲女人国产香蕉久久精品| 国产不卡精品一区二区三区| 99久久精品国产高清一区二区| 国产韩国精品一区二区三区| 一级毛片看真人在线视频| 美女被草网站| 久久国产影院| 99久久精品费精品国产一区二区| 你懂的国产精品| 国产不卡高清| 日韩一级黄色片| 国产麻豆精品hdvideoss| 久久99爰这里有精品国产| 精品国产三级a| 尤物视频网站在线| 青青久久国产成人免费网站| 可以免费看毛片的网站| 久久国产精品永久免费网站| 久久99这里只有精品国产| 国产91丝袜在线播放0| 亚洲 激情| 精品久久久久久影院免费| 色综合久久天天综合观看| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 精品毛片视频| 欧美另类videosbestsex高清| 国产精品1024在线永久免费| 国产成人啪精品| 国产欧美精品午夜在线播放| 亚洲wwwwww| 麻豆系列 在线视频| 亚洲爆爽| 免费国产在线观看不卡| 日韩在线观看视频免费| 欧美大片毛片aaa免费看| 可以免费在线看黄的网站| 日韩女人做爰大片| 毛片成人永久免费视频| 欧美国产日韩在线| 中文字幕一区二区三区精彩视频| 亚洲精品中文一区不卡| 精品毛片视频| 青青久久精品| 精品视频一区二区三区免费| 午夜在线影院| 国产成人精品综合在线| 午夜在线影院| 日韩在线观看视频黄| 国产麻豆精品高清在线播放| 高清一级做a爱过程不卡视频| 精品久久久久久综合网| 日韩一级黄色片| 国产精品自拍亚洲| 深夜做爰性大片中文| 日韩中文字幕一区| 天堂网中文字幕| 亚飞与亚基在线观看| 精品国产亚洲人成在线| 欧美大片毛片aaa免费看| 国产视频久久久| 成人a级高清视频在线观看| 国产伦理精品| 国产激情一区二区三区| 日韩在线观看视频黄| 精品国产一区二区三区久久久狼| 天天色色色| 亚洲精品久久玖玖玖玖| 国产伦精品一区二区三区无广告| 国产不卡精品一区二区三区| 久久国产精品只做精品| 久久久久久久久综合影视网| 高清一级片| 成人a大片在线观看| 日韩专区第一页| 91麻豆精品国产自产在线| 国产精品1024永久免费视频| 韩国三级视频网站| 国产91精品系列在线观看| 国产91精品一区二区| 国产美女在线观看| 国产欧美精品午夜在线播放| 日本在线不卡视频| 日日夜夜婷婷| 91麻豆tv| 久久精品店| 亚洲第一页乱| 99久久精品国产麻豆| 久久99爰这里有精品国产| 麻豆污视频| 你懂的国产精品| 国产a毛片| 国产91丝袜在线播放0| 国产一区精品| 午夜精品国产自在现线拍| 欧美1区| 精品视频在线观看免费| 欧美大片aaaa一级毛片| 成人高清视频在线观看| 国产a视频| 国产国产人免费视频成69堂| 国产精品免费久久| 久久精品成人一区二区三区| 亚飞与亚基在线观看| 国产一级强片在线观看| 国产精品自拍一区| 欧美激情一区二区三区中文字幕| 午夜精品国产自在现线拍| 日韩中文字幕在线播放| 欧美18性精品| 欧美a级片免费看| 尤物视频网站在线| 精品国产三级a∨在线观看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 国产不卡福利| 欧美国产日韩在线| 久久99中文字幕久久| 国产一区二区精品在线观看| 精品视频在线观看免费| 日日爽天天| 日韩免费在线视频| 久久久久久久免费视频| 日本在线播放一区| 精品视频一区二区三区免费| 天天做日日爱夜夜爽| 999久久狠狠免费精品| 天天做日日干| 香蕉视频一级| 可以在线看黄的网站| 999久久66久6只有精品| 精品视频免费观看| 成人在免费观看视频国产| 日韩女人做爰大片| 精品久久久久久中文字幕2017| 精品在线观看一区|