五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

Python文本挖掘——LDA模型實(shí)現(xiàn)

2020-05-18 10:42 作者:唐基老爹  | 我要投稿

注:完整代碼可以關(guān)注公眾號獲取

1、簡介

在機(jī)器學(xué)習(xí)領(lǐng)域,LDA是兩個(gè)常用模型的簡稱:Linear Discriminant Analysis和Latent Dirichlet Allocation。本文的LDA是指Latent Dirichlet Allocation,它在主題模型中占有非常重要的地位,常用來文本分類。

LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用來推測文檔的主題分布。它可以將文檔集中每篇文檔的主題以概率分布的形式給出,從而通過分析一些文檔抽取出它們的主題分布后,便可以根據(jù)主題分布進(jìn)行主題聚類或文本分類。

2、原理

LDA模型它是一種典型的詞袋模型,即一篇文檔是由一組詞構(gòu)成,詞與詞之間沒有先后順序的關(guān)系。此外,一篇文檔可以包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成。

人類生成文檔是基于概率選取主題及其對應(yīng)的詞匯的方式,即一篇文章的每個(gè)詞都是通過“以一定概率選擇了某個(gè)主題,并從這個(gè)主題中以一定概率選擇某個(gè)詞語”這樣一個(gè)過程得到。

那么LDA要做的就是通過文檔反推主題。文檔到主題服從多項(xiàng)式分布,主題到詞服從多項(xiàng)式分布。每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。

用LDA來進(jìn)行主題建模就是要以無指導(dǎo)學(xué)習(xí)的方法從文本中發(fā)現(xiàn)隱含的語義維度-即“Topic”或者“Concept”。隱性語義分析的實(shí)質(zhì)是要利用文本中詞項(xiàng)(term)的共現(xiàn)特征來發(fā)現(xiàn)文本的Topic結(jié)構(gòu),這種方法不需要任何關(guān)于文本的背景知識。

3、實(shí)現(xiàn)過程

這一過程可以通過Python輕松實(shí)現(xiàn)。需要的Python 包有:

?pandas,pandas 是基于NumPy 的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。在 Windows 下使用 pip 安裝:pip install pandas.?gensim,包含我們要用到的 LDA 模型的一個(gè)主題模型包。在 Windows 下使用 pip 安裝:pip install gensim.?jieba,是一款優(yōu)秀的 Python 第三方中文分詞庫。在 Windows 下使用 pip 安裝:pip install jieba.

3.1 導(dǎo)入包

3.2 分詞


3.3 將文檔表示成詞袋向量

3.4 LDA建模

打印主題

完整代碼





近期文章

Python入門:

Python安裝與環(huán)境配置

Python基礎(chǔ)用法 |《Python與開源GIS》

Python讀取excel的兩種方法

Python讀取json數(shù)據(jù)

Python基本庫——解析庫XPath

Python基本庫—正則表達(dá)式(regex)

第一個(gè)Python爬蟲


空間分析:

開工了開工了!空間計(jì)量模型系列教程一

空間計(jì)量模型系列教程二

情人節(jié)特輯之帶有驚喜的空間計(jì)量模型系列教程三

空間計(jì)量模型系列教程四

空間計(jì)量模型系列教程五(完結(jié)啦)

空間計(jì)量||空間權(quán)重矩陣

空間計(jì)量——用GeoDa和stata生成空間權(quán)重矩陣的方法

空間計(jì)量|| matlab實(shí)現(xiàn)空間計(jì)量模型SAR、SEM、SDM

分享||空間計(jì)量科研工具(一)


區(qū)域經(jīng)濟(jì):

經(jīng)濟(jì)地理學(xué)是經(jīng)濟(jì)學(xué)還是地理學(xué)?附重點(diǎn)外文期刊目錄

經(jīng)濟(jì)地理基本認(rèn)識:異質(zhì)性與尺度、格局、結(jié)構(gòu)、功能

分享||區(qū)域與城市經(jīng)濟(jì)學(xué)、房地產(chǎn)經(jīng)濟(jì)學(xué)與資源環(huán)境經(jīng)濟(jì)學(xué)慕課

復(fù)旦大學(xué)城市經(jīng)濟(jì)研究所推薦閱讀文獻(xiàn)

北京大學(xué)《城市經(jīng)濟(jì)學(xué)》推薦閱讀文獻(xiàn)

城市、區(qū)域經(jīng)濟(jì)學(xué)必讀書目推薦


其他:

MK突變檢驗(yàn)的matla實(shí)現(xiàn)

一個(gè)機(jī)智的MATLAB出圖tips

綜合評價(jià)||泰爾指數(shù)的matlab實(shí)現(xiàn)

空間計(jì)量之評價(jià)||DEA常見模型的matlab的實(shí)現(xiàn)(1)——CCR

空間計(jì)量之評價(jià)||DEA常見模型的matlab的實(shí)現(xiàn)(2)——非期望產(chǎn)出SBM

空間計(jì)量之評價(jià)||DEA常見模型的matlab的實(shí)現(xiàn)(2)——無非期望產(chǎn)出SBM

CiteSpace實(shí)操教程

基于SPSS的調(diào)查問卷信度和效度檢驗(yàn)


Python文本挖掘——LDA模型實(shí)現(xiàn)的評論 (共 條)

分享到微博請遵守國家法律
永靖县| 罗城| 车险| 依兰县| 雅江县| 通城县| 沙田区| 弥勒县| 金堂县| 安吉县| 巴楚县| 武穴市| 安徽省| 双桥区| 泗洪县| 酒泉市| 濮阳县| 平遥县| 阳曲县| 务川| 长沙县| 滦平县| 民和| 崇礼县| 宣武区| 阿拉善左旗| 准格尔旗| 平定县| 白山市| 时尚| 美姑县| 清苑县| 石嘴山市| 桐城市| 宁国市| 射洪县| 工布江达县| 太谷县| 榆中县| 呼图壁县| 鹿泉市|