AI人工智能 主題建模

2020-09-24 09:38 更新

主題建模:識(shí)別文本數(shù)據(jù)中的模式

我們知道,一般而言,文檔被分組為主題。 有時(shí)需要確定文本中與特定主題相對(duì)應(yīng)的模式。 這樣做的技術(shù)稱為主題建模。 換句話說,可以說主題建模是一種揭示給定文檔集合中抽象主題或隱藏結(jié)構(gòu)的技術(shù)。

可以在以下場(chǎng)景中使用主題建模技術(shù) -

文本分類 在主題建模的幫助下,分類可以得到改進(jìn),因?yàn)樗鼘⑾嗨频膯卧~分組在一起,而不是分別將每個(gè)單詞用作特征。

推薦系統(tǒng) 在主題建模的幫助下,可以使用相似性度量來構(gòu)建推薦系統(tǒng)。

主題建模算法

主題建??梢酝ㄟ^使用算法來實(shí)現(xiàn)。 算法如下 -

潛在狄利克雷分配(LDA) 該算法是主題建模中最流行的算法。 它使用概率圖形模型來實(shí)現(xiàn)主題建模。 我們需要在 Python 中導(dǎo)入 gensim 包以使用 LDA slgorithm。

潛在語義分析(LDA)或潛在語義索引(LSI) 該算法基于線性代數(shù)。 基本上它在文檔術(shù)語矩陣上使用 SVD(奇異值分解)的概念。

非負(fù)矩陣分解(NMF) 它也基于線性代數(shù)。

上述所有用于話題建模的算法都將主題數(shù)量作為參數(shù),將文檔 - 詞匯矩陣作為輸入,將 WTM(詞主題矩陣)和TDM(主題文檔矩陣)作為輸出。

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)