亚洲综合原千岁中文字幕_国产精品99久久久久久久vr_无码人妻aⅴ一区二区三区浪潮_成人h动漫精品一区二区三

主頁 > 知識庫 > python 爬取騰訊視頻評論的實(shí)現(xiàn)步驟

python 爬取騰訊視頻評論的實(shí)現(xiàn)步驟

熱門標(biāo)簽:申請辦個400電話號碼 400電話辦理費(fèi)用收費(fèi) 高德地圖標(biāo)注字母 深圳網(wǎng)絡(luò)外呼系統(tǒng)代理商 騰訊地圖標(biāo)注有什么版本 外呼系統(tǒng)前面有錄音播放嗎 千呼ai電話機(jī)器人免費(fèi) 鎮(zhèn)江人工外呼系統(tǒng)供應(yīng)商 柳州正規(guī)電銷機(jī)器人收費(fèi)

一、網(wǎng)址分析

查閱了網(wǎng)上的大部分資料,大概都是通過抓包獲取。但是抓包有點(diǎn)麻煩,嘗試了F12,也可以獲取到評論。以電視劇《在一起》為例子。評論最底端有個查看更多評論猜測過去應(yīng)該是 Ajax 的異步加載。
網(wǎng)上的大部分都是構(gòu)建評論的網(wǎng)址,通過 requests 獲取,正則表達(dá)式進(jìn)行數(shù)據(jù)處理。本文也利用該方法進(jìn)行數(shù)據(jù)處理,其實(shí)利用 scrapy 會更簡單。
根據(jù)前輩給出的經(jīng)驗(yàn),順利找到了評論所在的鏈接。

在新標(biāo)簽中打開,該網(wǎng)址的鏈接。

評論都在"content":"xxxxx"里面,所有可以通過正則表達(dá)式獲取。
那么現(xiàn)在要開始構(gòu)建網(wǎng)址,找到其規(guī)律。
在查找評論鏈接的過程中無意發(fā)現(xiàn),點(diǎn)擊影評旁邊的評論總數(shù),可以獲取到更為干凈的評論界面。結(jié)果是一樣的。

既然是要爬取所有的評論,所以知道評論數(shù)是必不可少的。

再通過F12獲取到評論鏈接,找到網(wǎng)址的規(guī)律,構(gòu)建網(wǎng)址,加載三四個評論就行了。這里加載了四個網(wǎng)址。把所有網(wǎng)址復(fù)制到文本文件中,進(jìn)行對比分析。

觀察發(fā)現(xiàn)只有 cursor 和 source 進(jìn)行了改變,其他是不變的,二 source 是在第一個的基礎(chǔ)上進(jìn)行加一操作,所以只需要獲取到 cursor 即可。我們打開一個評論鏈接的網(wǎng)址,我們可以知道,cursor 其實(shí)是上一頁 最后一個用戶的ID碼。所以我們只需要在爬取上一頁的時候一起爬蟲了。然后就可以構(gòu)建網(wǎng)址。

二、代碼編寫

這個代碼還是簡單的。套用之前上課做的模板就可以直接進(jìn)行爬蟲了。
通過正則表達(dá)式獲取評論,返回一個列表;
正則表達(dá)式獲得的 cursor 碼是列表,所以要轉(zhuǎn)化為字符串使用;
source 很簡單了,直接在上一個的基礎(chǔ)上加一即可。

def getComment(html): # 爬取單頁評論

 findeComment = re.compile(r'"content":"(.*?)"', re.S)
 comment = re.findall(findeComment, html)
 # print(comment)
 return comment

def getCursor(html): # 獲取下一頁的cursor碼
 findeCursor = re.compile(r'"last":"(.*?)"', re.S)
 cursor = re.findall(findeCursor, html)[0]
 # print(cursor)
 return cursor


def getSource(source): # 獲取下一頁的source碼
 source = int(source) + 1
 return str(source)

有點(diǎn)難度的可能就送弄代理吧,但是代理可以模仿網(wǎng)上其他人的寫法,所以還是不是很難。

#添加用戶代理

def ua(uapools):
 thisua = random.choice(uapools)
 # print(thisua)
 headers = ("User-Agent", thisua)
 opener = urllib.request.build_opener()
 opener.addheaders = [headers]
 # 設(shè)置為全局變量
 urllib.request.install_opener(opener)

三、遇到的問題

1. 獲取評論的時候也將子評論爬蟲進(jìn)去了。

仔細(xì)查看了源碼,發(fā)現(xiàn)評論主要在 data 下面的 oriCommList 列表里,其他范圍的評論為子評論。個人認(rèn)為子評論也算有效評論,目前不打算處理。

2. 獲取全部評論數(shù),直接通過 requests 獲取不到

嘗試了 xpath 和 requests 發(fā)現(xiàn)不能獲取全部評論數(shù),所以目前只能通過 selenium 獲取,但是 selenium 效率太低了,就獲取一個評論總數(shù),還不如打開源碼直接修改評論總數(shù),所以暫時沒有修改

3. 評論總數(shù)數(shù)據(jù)太大

因?yàn)橹芭老x過很多網(wǎng)站,同一個 user-agent 很容易被 ban ,所以目前構(gòu)建了用戶代理,然后進(jìn)行隨機(jī)。其實(shí)還想加一個 ip 代理的,但是使用了 ip 代理的網(wǎng)址,上面寫的正常的 ip ,在使用的時候,拒絕連接。也嘗試過構(gòu)建代理池。但是代理池一般都是使用docker 和 Redis 進(jìn)行獲取。暫時沒有選用,之選用了用戶代理,然后在獲取 headers 的時候加個 time.sleep(1)。目前還是正常的。

4. 報錯'utf-8' codec can't decode byte 0xff in position 1: invalid start byte

遇到這個問題,實(shí)在無語,我懷疑后面的評論是新出的 emjoy,然后utf-8不能識別,程序掛掉了。但是選取其他格式,在解釋的過程估計還會掛掉,就暫時爬到1萬條吧。

四、完整代碼

代碼倉庫

以上就是python 爬取騰訊視頻評論的實(shí)現(xiàn)步驟的詳細(xì)內(nèi)容,更多關(guān)于python 爬取騰訊視頻評論的資料請關(guān)注腳本之家其它相關(guān)文章!

您可能感興趣的文章:
  • Python爬取騰訊視頻評論的思路詳解
  • 使用python實(shí)現(xiàn)抓取騰訊視頻所有電影的爬蟲
  • 基于python實(shí)現(xiàn)的抓取騰訊視頻所有電影的爬蟲
  • Python爬蟲小練習(xí)之爬取并分析騰訊視頻m3u8格式

標(biāo)簽:烏蘭察布 平頂山 海南 哈爾濱 烏蘭察布 合肥 大慶 郴州

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《python 爬取騰訊視頻評論的實(shí)現(xiàn)步驟》,本文關(guān)鍵詞  python,爬取,騰訊,視頻,評論,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《python 爬取騰訊視頻評論的實(shí)現(xiàn)步驟》相關(guān)的同類信息!
  • 本頁收集關(guān)于python 爬取騰訊視頻評論的實(shí)現(xiàn)步驟的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    日韩专区第一页| 亚洲精品影院| 久久国产精品只做精品| 九九精品影院| 日韩免费在线视频| 免费国产在线观看| 九九热精品免费观看| 欧美a级v片不卡在线观看| 国产网站麻豆精品视频| 麻豆系列国产剧在线观看| 国产综合91天堂亚洲国产| 日本在线不卡免费视频一区| 国产亚洲男人的天堂在线观看| 四虎久久精品国产| 日韩一级黄色| 日本在线不卡免费视频一区| 亚洲第一色在线| 欧美电影免费| 精品在线视频播放| 麻豆网站在线看| 香蕉视频亚洲一级| 天天做人人爱夜夜爽2020毛片| 天天色成人| 日韩一级黄色| 91麻豆国产| 91麻豆国产| 亚洲天堂免费观看| 韩国毛片免费| 国产激情一区二区三区| 毛片高清| 国产视频久久久久| 一级女人毛片人一女人| 成人免费观看的视频黄页| 国产综合91天堂亚洲国产| 91麻豆精品国产自产在线观看一区| 国产伦精品一区三区视频| 国产精品12| 你懂的在线观看视频| 91麻豆国产级在线| 91麻豆爱豆果冻天美星空| 久久精品免视看国产明星| 成人免费福利片在线观看| 99热精品在线| 国产一区免费在线观看| 美女免费精品高清毛片在线视| 91麻豆精品国产高清在线| 国产成人精品综合在线| 国产成人欧美一区二区三区的| 国产a视频| 美女免费毛片| 青青久久精品| 二级特黄绝大片免费视频大片| 国产网站免费| 久久久成人网| 日本在线不卡视频| a级毛片免费观看网站| 日韩欧美一及在线播放| 亚洲女人国产香蕉久久精品| 尤物视频网站在线| 日本免费看视频| 美女免费精品视频在线观看| 国产网站免费| 精品视频在线看| 九九精品在线播放| 亚洲天堂在线播放| 日本特黄特色aa大片免费| 欧美激情一区二区三区在线| 四虎影视库国产精品一区| 国产一区二区精品久| 成人影院一区二区三区| 成人在激情在线视频| 精品国产一区二区三区久| 精品国产一区二区三区久久久蜜臀| 四虎影视库| 欧美激情一区二区三区视频| 中文字幕一区二区三区 精品| 在线观看成人网 | 可以免费看毛片的网站| 国产不卡在线看| 97视频免费在线观看| 精品视频免费在线| 国产极品精频在线观看| 韩国毛片免费大片| 毛片高清| 天天色色网| 欧美一区二区三区在线观看| 九九干| 午夜在线影院| 尤物视频网站在线| 一级女人毛片人一女人| 久久久久久久男人的天堂| 欧美日本国产| 久久99中文字幕| 成人影视在线播放| 欧美1区| 欧美激情一区二区三区中文字幕| 尤物视频网站在线| 色综合久久天天综合绕观看| 国产精品1024永久免费视频| 日日夜人人澡人人澡人人看免| 美国一区二区三区| 国产精品1024永久免费视频| 中文字幕97| 精品国产三级a| 欧美激情一区二区三区在线| 成人影院一区二区三区| 毛片的网站| 久久国产精品自线拍免费| 成人免费福利片在线观看| 国产一区精品| 日本免费看视频| a级毛片免费观看网站| 麻豆午夜视频| 国产极品白嫩美女在线观看看| a级毛片免费观看网站| 欧美国产日韩在线| 国产精品1024永久免费视频 | 99久久精品费精品国产一区二区| 999久久狠狠免费精品| 成人免费一级纶理片| 日韩字幕在线| 成人免费一级毛片在线播放视频| 午夜在线影院| 高清一级毛片一本到免费观看| 免费一级片在线观看| 色综合久久天天综合观看| 一本伊大人香蕉高清在线观看| 精品国产亚一区二区三区| 国产麻豆精品视频| 九九九国产| 九九精品久久| 欧美激情一区二区三区在线| 欧美大片aaaa一级毛片| 四虎影视库国产精品一区| 国产91精品一区二区| 成人免费观看网欧美片| 亚洲精品中文字幕久久久久久| 四虎久久精品国产| 国产综合91天堂亚洲国产| 成人免费一级毛片在线播放视频| 日韩免费在线视频| 国产伦理精品| 日本特黄特色aa大片免费| 成人a大片高清在线观看| 国产一区二区精品| 一级毛片视频免费| 成人在免费观看视频国产| 日本伦理网站| 日韩一级黄色片| 欧美激情一区二区三区在线| 久久国产一久久高清| 日本在线不卡免费视频一区| 亚洲第一色在线| 欧美一级视频免费| 日韩av成人| 色综合久久天天综合绕观看| 亚洲 欧美 成人日韩| 麻豆系列 在线视频| 久久久成人网| 国产视频在线免费观看| 成人免费观看视频| 可以免费看毛片的网站| 欧美电影免费| 精品国产一区二区三区精东影业| 国产一区二区精品在线观看| 二级特黄绝大片免费视频大片| 欧美大片一区| 欧美激情中文字幕一区二区| 九九精品影院| 日韩中文字幕一区二区不卡| 精品视频免费在线| 亚洲第一视频在线播放| 精品国产香蕉在线播出 | 亚久久伊人精品青青草原2020| 成人高清免费| 日本在线不卡视频| 国产成人啪精品| 91麻豆精品国产自产在线观看一区| 精品国产亚洲人成在线| 国产91精品系列在线观看| 韩国三级视频网站| 黄色短视屏| 日韩中文字幕在线亚洲一区| 欧美激情一区二区三区视频高清| 国产一区免费在线观看| 四虎影视久久久免费| 国产不卡高清在线观看视频| 色综合久久天天综合| 久久久久久久久综合影视网| 中文字幕一区二区三区精彩视频 | 日韩专区在线播放| 亚洲wwwwww| 亚洲天堂在线播放| 久久精品免视看国产成人2021| 欧美一级视| 亚洲精品中文字幕久久久久久| 精品视频免费观看| 精品国产香蕉在线播出| 国产美女在线一区二区三区| 国产福利免费视频|