-
當前位置:首頁 > 創(chuàng)意學院 > 技術 > 專題列表 > 正文
抓取文本高頻詞
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于抓取文本高頻詞的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關鍵詞,就能返回你想要的內容,越精準,寫出的就越詳細,有微信小程序端、在線網頁版、PC客戶端
創(chuàng)意嶺作為行業(yè)內優(yōu)秀的企業(yè),服務客戶遍布全球各地,如需了解SEO相關業(yè)務請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、python 提取有關鍵詞的句子怎么做
高頻詞提取:
# !/usr/bin/python3
# coding:utf-8
import jieba.analyse
jieba.load_userdict('dict.txt') # dict.txt自定義詞典
content = open('kw.txt', 'rb').read()
tags = jieba.analyse.extract_tags(content, topK=10) # topK 為高頻詞數量
print("\n".join(tags))
二、用Python實現小說里的高頻詞統(tǒng)計并顯示
用jieba做分詞,用wordcloud包做詞云就可以了
# 讀取文件內容file = 'd:/艾薩克·阿西莫夫/奇妙的航程.TXT'
f = open(file, 'r', encoding='gbk')
text = f.read()
f.close()
# 使用jieba分詞,因為wordcloud是以空格識別單詞邊界的
import jieba
text = ' '.join(jieba.cut(text))
# 掩碼圖片,單色圖就好
from scipy.misc import imread
color_mask = imread('D:/Pictures/7218.png')
# 建立詞云對象,因為是中文,指定一個中文字體,不然可能會亂碼
# WordCloud的參數可以控制很多內容,請自行閱讀包的文檔
import wordcloud
w = wordcloud.WordCloud(font_path='C:/Windows/Fonts/msyh.ttc',
max_words=100,
mask=color_mask)
# 載入以空格分詞的字符串
w.generate(text)
# 生成圖片
w.to_file('d:/img1.png')
三、“關鍵詞”提取都有哪些方案?
僅從詞語角度分析,1.2句banana是重復出現的,3.4句kitten是重復出現的。但其實可以發(fā)現1.2句主要跟食物有關,3.4句主要跟動物有關,而food、animal兩個詞在四句話里均未出現,有沒有可能判斷出四句話中所包含的兩個主題呢,或者當兩篇文章共有的高頻詞很少,如一篇講banana,一篇講orange,是否可以判斷兩篇文章都包含food這個主題呢,如何生成主題、如何分析文章的主題,這就是topic-model所研究的內容。對文本進行LSA(隱形語義分析)。在直接對詞頻進行分析的研究中,可以認為通過詞語來描述文章,即一層的傳遞關系。而topic-model則認為文章是由主題組成,文章中的詞,是以一定概率從主題中選取的。不同的主題下,詞語出現的概率分布是不同的。比如”魚雷“一詞,在”軍事“主題下出現的概率遠大于在”食品”主題下出現的概率。即topic-model認為文檔和詞語之間還有一層關系。首先假設每篇文章只有一個主題z,則對于文章中的詞w,是根據在z主題下的概率分布p(w|z)生成的。則在已經選定主題的前提下,整篇文檔產生的概率是而這種對每篇文章只有一個主題的假設顯然是不合理的,事實上每篇文章可能有多個主題,即主題的選擇也是服從某概率分布p(t)的因此根據LDA模型,所有變量的聯合分布為表示topic下詞的分布,表示文檔下topic的分布。是第m個文檔的單詞總數。和表示詞語和topic的概率分布先驗參數。而學習LDA的過程,就是通過觀察到的文檔集合,學習的過程。
四、統(tǒng)計高頻詞的軟件有哪些?
分析軟件有Excel、SPSS、MATLAB、 SAS、Finereport等
其中Excel我就不多說了相信大家都懂。
SPSS是世界上最早采用圖形菜單驅動界面的統(tǒng)計軟件它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現出來。SPSS采用類似EXCEL表格的方式輸入與管理數據,數據接口較為通用,能方便的從其他數據庫中讀入數據。其統(tǒng)計過程包括了常用的、較為成熟的統(tǒng)計過程,完全可以滿足大部分的工作需要。
MATLAB是美國MathWorks公司出品的商業(yè)數學軟件,用于算法開發(fā)、數據可視化、數據分析以及數值計算的高級技術計算語言和交互式環(huán)境使用的。
其優(yōu)點如下:
1、高效的數值計算及符號計算功能,能使用戶從繁雜的數學運算分析中解脫出來;
2、 具有完備的圖形處理功能,實現計算結果和編程的可視化;
3、友好的用戶界面及接近數學表達式的自然化語言,使學者易于學習和掌握;
4、功能豐富的應用工具箱(如信號處理工具箱、通信工具箱等) ,為用戶提供了大量方便實用的處理工具。
但是這款軟件的使用難度較大,非專業(yè)人士不推薦使用。
SAS是把數據存取,管理,分析和展現有機地融為一體。其功能非常強大統(tǒng)計方法齊,全,新。它由數十個專用模塊構成,功能包括數據訪問、數據儲存及管理、應用開發(fā)、圖形處理、數據分析、報告編制、運籌學方法、計量經濟學與預測等。SAS系統(tǒng)基本上可以分為四大部分:SAS數據庫部分;SAS分析核心;SAS開發(fā)呈現工具;SAS對分布處理模式的支持及其數據倉庫設計。不過這款軟件的使用需要一定的專業(yè)知識,非專業(yè)人士不推薦使用。
Finereport類EXCEL設計模式,EXCEL+綁定數據列”形式持多SHEET和跨SHEET計算,完美兼容EXCEL公式,用戶可以所見即所得的設計出任意復雜的表樣,輕松實現中國式復雜報表。它的功能也是非常的豐富,比如說 數據支持與整合、聚合報表、數據地圖、Flash打印、交互分析等。
以上就是關于抓取文本高頻詞相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內容。
推薦閱讀:
手機版冰雪單職業(yè)傳奇(手機版冰雪單職業(yè)傳奇有幾個平臺)