W3Cschool
恭喜您成為首批注冊(cè)用戶
獲得88經(jīng)驗(yàn)值獎(jiǎng)勵(lì)
我們知道,一般而言,文檔被分組為主題。 有時(shí)需要確定文本中與特定主題相對(duì)應(yīng)的模式。 這樣做的技術(shù)稱為主題建模。 換句話說,可以說主題建模是一種揭示給定文檔集合中抽象主題或隱藏結(jié)構(gòu)的技術(shù)。
可以在以下場(chǎng)景中使用主題建模技術(shù) -
文本分類 在主題建模的幫助下,分類可以得到改進(jìn),因?yàn)樗鼘⑾嗨频膯卧~分組在一起,而不是分別將每個(gè)單詞用作特征。
推薦系統(tǒng) 在主題建模的幫助下,可以使用相似性度量來構(gòu)建推薦系統(tǒng)。
主題建??梢酝ㄟ^使用算法來實(shí)現(xiàn)。 算法如下 -
潛在狄利克雷分配(LDA) 該算法是主題建模中最流行的算法。 它使用概率圖形模型來實(shí)現(xiàn)主題建模。 我們需要在 Python 中導(dǎo)入 gensim 包以使用 LDA slgorithm。
潛在語義分析(LDA)或潛在語義索引(LSI) 該算法基于線性代數(shù)。 基本上它在文檔術(shù)語矩陣上使用 SVD(奇異值分解)的概念。
非負(fù)矩陣分解(NMF) 它也基于線性代數(shù)。
上述所有用于話題建模的算法都將主題數(shù)量作為參數(shù),將文檔 - 詞匯矩陣作為輸入,將 WTM(詞主題矩陣)和TDM(主題文檔矩陣)作為輸出。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號(hào)-3|閩公網(wǎng)安備35020302033924號(hào)
違法和不良信息舉報(bào)電話:173-0602-2364|舉報(bào)郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號(hào)
聯(lián)系方式:
更多建議: