亚洲综合原千岁中文字幕_国产精品99久久久久久久vr_无码人妻aⅴ一区二区三区浪潮_成人h动漫精品一区二区三

主頁 > 知識庫 > python jieba庫的基本使用

python jieba庫的基本使用

熱門標簽:400電話 申請 條件 南京crm外呼系統排名 crm電銷機器人 賓館能在百度地圖標注嗎 電銷機器人 金倫通信 鄭州智能外呼系統中心 汕頭電商外呼系統供應商 云南地圖標注 北京外呼電銷機器人招商

一、jieba庫概述

jieba是優秀的中文分詞第三方庫

  • 中文文本需要通過分詞獲得單個的詞語
  • jieba是優秀的中文分詞第三方庫,需要額外安裝
  • jieba庫提供三種分詞模式,最簡單只需要掌握一個函數

二、jieba庫安裝

pip install jieba

三、jieba分詞的原理

jieba分詞依靠中文詞庫

  • 利用一個中文詞庫,確定漢字之間的關聯概率
  • 漢字間概率大的組成詞組,形成分詞結果

四、jieba分詞的3種模式

  • 精確模式:把文本精確地切分開,不存在冗余單詞(最常用)
  • 全模式:把文本中所有可能的詞語都掃描出來,有冗余
  • 搜索引擎模式:在精確模式的基礎上,對長詞再次切分

五、jieba庫常用函數

函數 描述
jieba.lcut(s) 精確模式,返回一個列表類型的分詞結果
jieba.lcut(s,cut_all=True) 全模式,返回一個列表類型的分詞結果,存在冗余
jieba.lcut_for_search(s) 搜索引擎模式,返回一個列表類型的分詞結果,存在冗余
jieba.lcut(s) 精確模式,返回一個列表類型的分詞結果
jieba.add_word(s) 向分詞詞典增加新詞w

例子:

>>> jieba.lcut("中國是一個偉大的國家")
['中國', '是', '一個', '偉大', '的', '國家']

>>> jieba.lcut("中國是一個偉大的國家", cut_all=True)
['中國', '國是', '一個', '偉大', '的', '國家']

>>> jieba.lcut_for_search("中華人民共和國是偉大的")
['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']

六、文本詞頻示例

問題分析

  • 英文文本: Hamlet 分析詞頻

https://python123.io/resources/pye/hamlet.txt

  • 中文文本: 《三國演義》 分析人物

https://python123.io/resources/pye/threekingdoms.txt

代碼如下:

def getText():
 # 打開 hamlet.txt 這個文件
 txt = open("hamlet.txt", "r").read()
 # 避免大小寫對詞頻統計的干擾,將所有單詞轉換為小寫
 txt = txt.lower()
 # 將文中出現的所有特殊字符替換為空格
 for ch in '|"#$%^*()_+-=\\`~{}[];:>?/':
 txt = txt.replace(ch, " ")
 # 返回一個所以后單詞都是小寫的,單詞間以空格間隔的文本
 return txt

hamletTxt = getText()
# split() 默認使用空格作為分隔符
words = hamletTxt.split()
counts = {}
for word in words:
 counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(10):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

上面代碼中的

items.sort(key=lambda x:x[1], reverse=True)

是根據單詞出現的次數進行排序,其中使用了 lambda 函數。更多解釋請看:
https://www.runoob.com/python/att-list-sort.html

下面使用 jieba 庫來統計《三國演義》中任務出場的次數:

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 else:
 counts[word] = counts.get(word, 0) + 1

items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

運行結果:

曹操  953
孔明  836
將軍  772
卻說  656
玄德  585
關公  510
丞相  491
二人  469
不可  440
荊州  425
玄德曰  390
孔明曰  390
不能  384
如此  378
張飛  358

我們可以看到得出的結果與我們想象的有些差異,比如

  • “卻說”、“二人”等與人名無關
  • “諸葛亮”、“孔明”都是同一個人
  • “孔明”和“孔明曰”分詞不符合我們的需求

所以我們需要對上面代碼進行優化,在詞頻統計的基礎上,面向問題改造我們的程序。

下面是《三國演義》人物數量統計代碼的升級版,升級版中對于某些確定不是人名的詞,即使做了詞頻統計,也要將它刪除掉。使用寄一個集合excludes來接收一些確定不是人名但是又排序比較靠前的單詞列進去。

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
excludes = {"將軍","卻說","荊州","二人","不可","不能","如此"}
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 elif word == "諸葛亮" or word == "孔明曰":
 rword == "孔明"
 elif word == "關公" or word == "云長":
 rword == "關羽"
 elif word == "玄德" or word == "玄德曰":
 rword == "劉備"
 elif word == "孟德" or word == "丞相":
 rword == "曹操"
 else:
 rword = word
 counts[rword] = counts.get(rword, 0) + 1

items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

運行結果:

曹操  963
孔明  847
張飛  366
商議  359
如何  352
主公  340
軍士  320
呂布  303
左右  298
軍馬  297
趙云  283
劉備  282
引兵  279
次日  278
大喜  274

可以看出還是有像“商議”、“如何”等不是人物的詞出現在統計結果,我們將這些詞加入到 excludes 中,多次運行程序后最后得到《三國演義》任務出場順序前20:

七、文本詞頻統計問題舉一反三

應用問題擴展

  • 《紅樓夢》、《西游記》、《水滸傳》...等名著都可以統計它的任務出場次數
  • 政府工作報告、科研論文、新聞報道...中出現的大量的詞頻進行分析,進而找到每篇文章的重點內容
  • 進一步,對文本的詞語或詞匯繪制成詞云,使其展示的效果更加直觀

以上內容資料均來源于中國大學MOOC網-北京理工大學Python語言程序設計課程
課程地址:https://www.icourse163.org/course/BIT-268001

以上就是python jieba庫的基本使用的詳細內容,更多關于python jieba庫的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • Python jieba庫分詞模式實例用法
  • Python jieba庫用法及實例解析
  • Python基于jieba庫進行簡單分詞及詞云功能實現方法
  • Python中jieba庫的使用方法

標簽:錫林郭勒盟 梅州 文山 石家莊 西寧 懷化 浙江 昆明

巨人網絡通訊聲明:本文標題《python jieba庫的基本使用》,本文關鍵詞  python,jieba,庫,的,基本,使用,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python jieba庫的基本使用》相關的同類信息!
  • 本頁收集關于python jieba庫的基本使用的相關信息資訊供網民參考!
  • 推薦文章
    久草免费在线视频| 四虎论坛| 天天做人人爱夜夜爽2020| 成人高清免费| 亚洲天堂免费| 国产不卡在线观看| 成人高清视频免费观看| 日本伦理网站| 国产不卡在线播放| 沈樵在线观看福利| 日韩专区在线播放| 午夜在线影院| 99热精品一区| 美女免费毛片| 成人影院久久久久久影院| 色综合久久天天综合观看| 中文字幕97| 国产不卡福利| 精品久久久久久中文字幕2017| 韩国三级视频在线观看| 在线观看成人网 | 色综合久久久久综合体桃花网| 国产一级生活片| 国产网站免费| 国产一区精品| 久久久久久久久综合影视网| 麻豆网站在线免费观看| 国产一级强片在线观看| 日韩av片免费播放| 日本在线不卡免费视频一区| 欧美大片aaaa一级毛片| 成人影视在线播放| 天天色色色| 亚洲第一页乱| 日韩专区一区| a级精品九九九大片免费看| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 香蕉视频久久| 韩国毛片基地| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 精品久久久久久综合网| 精品视频免费看| 国产不卡在线播放| 欧美激情一区二区三区中文字幕| 日本伦理网站| 99久久精品国产高清一区二区| 国产不卡在线播放| 欧美激情一区二区三区视频| 精品毛片视频| 亚洲精品中文字幕久久久久久| 九九九在线视频| 四虎影视库| 欧美1区| 久久精品免视看国产明星| 久久99爰这里有精品国产| 一本高清在线| 中文字幕Aⅴ资源网| 一级女人毛片人一女人| 欧美激情一区二区三区在线| 久久国产影院| 天天色色色| 欧美另类videosbestsex| 青青青草影院| 色综合久久久久综合体桃花网| 精品国产三级a| 欧美激情伊人| 久久福利影视| 黄视频网站在线看| 久久精品大片| 四虎影视久久| 99久久精品国产高清一区二区| 天天做日日爱| 成人高清视频免费观看| 精品久久久久久中文字幕2017| 99久久网站| 精品久久久久久综合网 | 国产不卡在线看| 久久精品人人做人人爽97| 超级乱淫伦动漫| 成人高清护士在线播放| 欧美另类videosbestsex| 天天做日日爱夜夜爽| 国产成人精品一区二区视频| 成人免费观看视频| 欧美1卡一卡二卡三新区| 天天做日日爱| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 香蕉视频一级| 久久精品免视看国产成人2021| 日韩av成人| 国产视频一区二区在线播放| 天天做日日干| 亚洲 激情| 四虎精品在线观看| 国产91素人搭讪系列天堂| 精品久久久久久免费影院| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 精品国产亚一区二区三区| 精品国产亚一区二区三区| 久久99这里只有精品国产| 国产高清在线精品一区a| 美女免费黄网站| 99色视频在线观看| 久草免费资源| 韩国三级香港三级日本三级| 亚洲天堂免费| 毛片成人永久免费视频| 国产福利免费观看| 夜夜操天天爽| 欧美另类videosbestsex视频| 欧美a级片视频| 精品国产香蕉伊思人在线又爽又黄| 日韩欧美一及在线播放| 亚洲不卡一区二区三区在线 | 国产福利免费视频| 欧美大片毛片aaa免费看| 国产网站免费| 韩国毛片基地| 九九久久国产精品| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 国产福利免费观看| 免费一级片网站| 黄视频网站在线看| 日本特黄一级| 精品国产亚一区二区三区| 亚洲天堂一区二区三区四区| 毛片成人永久免费视频| 国产福利免费观看| 免费国产在线观看| 99久久精品国产片| 韩国毛片基地| 免费毛片播放| 国产a网| 国产伦精品一区三区视频| 99久久精品国产高清一区二区 | 欧美一级视| 欧美一级视频免费| 成人影院一区二区三区| 精品久久久久久免费影院| 99久久精品国产高清一区二区| 国产视频网站在线观看| 欧美日本二区| 亚洲女人国产香蕉久久精品| 成人a大片高清在线观看| 日韩一级黄色| 日本免费看视频| 黄色短视频网站| 国产精品自拍亚洲| 韩国毛片基地| 日本免费乱理伦片在线观看2018| 九九精品在线播放| 精品国产三级a∨在线观看| 国产亚洲精品aaa大片| 午夜在线影院| 欧美一级视频免费观看| 日韩免费片| 免费一级片在线观看| 国产成人精品综合在线| 色综合久久久久综合体桃花网| 可以免费在线看黄的网站| 91麻豆tv| 四虎影视久久| 精品国产一区二区三区久| 日本伦理黄色大片在线观看网站| 午夜在线影院| 国产网站在线| 成人高清视频免费观看| 成人高清视频免费观看| 四虎久久精品国产| 国产麻豆精品| 日本免费区| 色综合久久天天综合| 欧美激情一区二区三区中文字幕| 精品美女| 久久99青青久久99久久| 亚洲不卡一区二区三区在线 | 可以免费看污视频的网站| 国产成人女人在线视频观看| 999精品视频在线| 国产不卡在线播放| 国产精品12| 沈樵在线观看福利| 精品国产三级a| 成人a级高清视频在线观看| 国产精品自拍在线| 青青久久精品国产免费看| 久久久久久久久综合影视网| 欧美18性精品| 精品久久久久久中文| 九九久久99| 精品国产一区二区三区久久久蜜臀| 国产成人精品综合久久久| 国产伦久视频免费观看视频| 香蕉视频一级| 午夜在线影院| 久草免费在线观看| 国产伦久视频免费观看视频| 四虎影视精品永久免费网站| 国产网站在线| 成人a大片在线观看|