本篇文章是我們學(xué)習(xí) Python 及其在機(jī)器學(xué)(ML)和人工智能(AI)中的應(yīng)用系列的第六個模塊。在上一個模塊中,我們討論了使用 OpenCV 進(jìn)行圖像識別?,F(xiàn)在我們就來看看自然語言工具包(NLTK)能夠做些什么?
安裝
第一種方法,可以用Anaconda來安裝NLTK:
conda install nltk
第二種方法,可以用pip,在Jupyter Notebook的單元中運(yùn)行安裝NLTK:
!pip install --upgrade nltk
如果以下 Python 代碼運(yùn)行沒有錯誤,則說明安裝是成功的:
import nltk
NLTK 附帶了大量可以下載的數(shù)據(jù)(語料庫、語法、模型等),所以只需運(yùn)行以下的 Python 命令就會出現(xiàn)一個顯示交互式下載窗口:
ntlk.download()
對于此模塊,你還需要安裝“停用詞”的語料庫。下載后,還要再創(chuàng)建一個名為NLTK_DATA包含下載目錄路徑的環(huán)境變量(如果你進(jìn)行集中安裝,則不需要;有關(guān)安裝數(shù)據(jù)的完整指南,請參閱文檔)。
文本分類
對文本進(jìn)行分類意味著要為其分配標(biāo)簽。我們可以采用多種方式對文本進(jìn)行分類,例如情感分析(正面/負(fù)面/中性)、垃圾郵件分類(垃圾郵件/非垃圾郵件)、按文檔主題等。
在本模塊中,我們將使用大型電影評論數(shù)據(jù)集演練文本分類示例,該數(shù)據(jù)集提供 25,000 條電影評論(正面和負(fù)面)用于訓(xùn)練和相同數(shù)量的測試。
NLTK 提供了一個樸素貝葉斯分類器來處理機(jī)器學(xué)習(xí)工作。我們的工作主要是編寫一個從文本中提取“特征”的函數(shù)。分類器使用這些特征來執(zhí)行其分類。
我們的函數(shù)稱為feature extractor,它接受一個字符串(文本)作為參數(shù),并返回一個將特征名稱映射到它們的值的字典,稱為feature set。
對于電影評論,我們的特征將是前N 個詞(不包括停用詞)。因此,特征提取器將返回一個特征集,其中包含這N 個單詞作為鍵,并返回一個布爾值,表示它們的存在或不存在作為值。
第一步是瀏覽評論,存儲所有單詞(停用詞除外),并找到最常用的單詞。
首先,這個輔助函數(shù)接受一個文本并輸出它的非停用詞:
import nltk
import nltk.sentiment.util
from nltk.corpus import stopwords
import nltk.sentiment.util
stop = set(stopwords.words("english"))
def extract_words_from_text(text):
tokens = nltk.word_tokenize(text)
tokens_neg_marked = nltk.sentiment.util.mark_negation(tokens)
return [t for t in tokens_neg_marked
if t.replace("_NEG", "").isalnum() and
t.replace("_NEG", "") not in stop]
word_tokenize
將文本拆分為一個標(biāo)記列表(仍然保留標(biāo)點(diǎn)符號)。
mark_negation
用 _NEG 標(biāo)記否定后的標(biāo)記。所以,例如,“我不喜歡這個?!?nbsp;在標(biāo)記化和標(biāo)記否定之后變成這個:
["I", "did", "not", "enjoy_NEG", "this_NEG", "."]
.
最后一行刪除所有停用詞(包括否定詞)和標(biāo)點(diǎn)符號。文中還有很多沒用的詞,比如“我”或者“這個”,但是這個過濾就足夠我們演示了。
接下來,我們構(gòu)建從評論文件中讀取的所有單詞的列表。我們保留一個單獨(dú)的正面和負(fù)面詞列表,以確保在我們選取最重要的詞時保持平衡。(我還在沒有將單詞列表分開的情況下對其進(jìn)行了測試,結(jié)果發(fā)現(xiàn)大多數(shù)正面評論都被歸類為負(fù)面評論。)同時,我們還可以創(chuàng)建所有正面評論和所有負(fù)面評論的列表。
import os
positive_files = os.listdir("aclImdb/train/pos")
negative_files = os.listdir("aclImdb/train/neg")
positive_words = []
negative_words = []
positive_reviews = []
negative_reviews = []
for pos_file in positive_files:
with open("aclImdb/train/pos/" + pos_file, "r") as f:
txt = f.read().replace("<br />", " ")
positive_reviews.append(txt)
positive_words.extend(extract_words_from_text(txt))
for neg_file in negative_files:
with open("aclImdb/train/neg/" + neg_file, "r") as f:
txt = f.read().replace("<br />", " ")
negative_reviews.append(txt)
negative_words.extend(extract_words_from_text(txt))
運(yùn)行此代碼可能需要一段時間,因?yàn)橛泻芏辔募?/p>
然后,我們只保留正面和負(fù)面詞列表中的前N 個詞(在本例中為 2000 個詞)并將它們組合起來。
N = 2000
freq_pos = nltk.FreqDist(positive_words)
top_word_counts_pos = sorted(freq_pos.items(), key=lambda kv: kv[1], reverse=True)[:N]
top_words_pos = [twc[0] for twc in top_word_counts_pos]
freq_neg = nltk.FreqDist(negative_words)
top_word_counts_neg = sorted(freq_neg.items(), key=lambda kv: kv[1], reverse=True)[:N]
top_words_neg = [twc[0] for twc in top_word_counts_neg]
top_words = list(set(top_words_pos + top_words_neg))
現(xiàn)在我們可以編寫一個特征提取器。如前所述,它應(yīng)該返回一個字典,其中每個最上面的單詞作為鍵,True
或者False
作為值,這取決于該單詞是否存在于文本中。
def extract_features(text):
text_words = extract_words_from_text(text)
return { w: w in text_words for w in top_words }
然后我們創(chuàng)建一個訓(xùn)練集,我們將其提供給樸素貝葉斯分類器。訓(xùn)練集應(yīng)該是一個元組列表,其中每個元組的第一個元素是特征集,第二個元素是標(biāo)簽。
training = [(extract_features(review), "pos") for review in positive_reviews] + [(extract_features(review), "neg") for review in negative_reviews]
上面的行占用大量 RAM 并且速度很慢,因此您可能希望通過獲取評論列表的一部分來使用評論的子集。
訓(xùn)練分類器很簡單:
classifier = nltk.NaiveBayesClassifier.train(training)
要立即對評論進(jìn)行分類,請classify
在新功能集上使用該方法:
print(classifier.classify(extract_features("Your review goes here.")))
如果你想要查看每個標(biāo)簽的概率,可以用prob_classify
替代:
def get_prob_dist(text):
prob_dist = classifier.prob_classify(extract_features(text))
return { "pos": prob_dist.prob("pos"), "neg": prob_dist.prob("neg") }
print(get_prob_dist("Your review goes here."))
分類器具有基于測試集確定模型準(zhǔn)確性的內(nèi)置方法。該測試集的形狀與訓(xùn)練集相同。電影評論數(shù)據(jù)集有一個單獨(dú)的目錄,其中包含可用于此目的的評論。
test_positive = os.listdir("aclImdb/test/pos")[:2500]
test_negative = os.listdir("aclImdb/test/neg")[:2500]
test = []
for pos_file in test_positive:
with open("aclImdb/test/pos/" + pos_file, "r") as f:
txt = f.read().replace("<br />", " ")
test.append((extract_features(txt), "pos"))
for neg_file in test_negative:
with open("aclImdb/test/neg/" + neg_file, "r") as f:
txt = f.read().replace("<br />", " ")
test.append((extract_features(txt), "neg"))
print(nltk.classify.accuracy(classifier, test))
使用 N = 2000,在訓(xùn)練集中有 5000 條正面評論和 5000 條負(fù)面評論,我用這段代碼獲得了大約 85% 的準(zhǔn)確率。
結(jié)論
在本模塊中,我們研究了 NLTK 在文本分類中的工作原理,并使用情感分析進(jìn)行了演示。你也可以用相同的方式將其應(yīng)用到其他至少有兩個標(biāo)簽的分類。