在python中counter容器是一種高性能容量數(shù)據(jù)類型,他可以用來進行數(shù)據(jù)數(shù)據(jù)的統(tǒng)計。接下來這篇文章,我們基于counter容器,來介紹一下python統(tǒng)計可散列的對象如何實現(xiàn)吧。
一、初始化Counter
Counter支持3種形式的初始化,比如提供一個數(shù)組,一個字典,或單獨鍵值對“=”式賦值。具體初始化的代碼如下所示:
import collections
a = collections.Counter(['a', 'a', 'b', 'b', 'b', 'c'])
b = collections.Counter({"a": 2, "b": 3, "c": 1})
c = collections.Counter(a=2, b=3, c=1)
print(a)
print(b)
print(c)
運行之后,效果如下:
這種是直接通過構(gòu)造函數(shù)進行填充。當然,我們還可以直接構(gòu)造一個空Counter,然后通過update()函數(shù)進行填充。
import collections
a = collections.Counter()
a.update(['a', 'a', 'b', 'b', 'b', 'c'])
print(a)
運行效果和上面的a一樣,這里就不上圖了,感興趣的讀者自己測試運行。
二、遍歷Counter
通過上面初始化以及更新,我們Counter容器中存在了很多的值。因為輸出的是字典的形式,所以我們可以直接通過字典的方式進行訪問。
import collections
a = collections.Counter()
a.update(['a', 'a', 'b', 'b', 'b', 'c'])
for key in 'abcde':
print(key, "=", a[key])
運行之后,效果如下:
可以看到容器Counter,可以輸出空值不報錯。因為當我們沒有找到某個值時,其默認計數(shù)為0。
三、elements()
當然,如果你想實現(xiàn)那種輸出沒有0值的遍歷??梢允褂胑lements()迭代器。具體代碼如下:
import collections
a = collections.Counter()
a.update('caabbbc')
print(list(a.elements()))
運行之后,效果如下:
需要注意的是,elements()雖然去除了0值,但并不能保證遍歷順序。
四、most_common
most_common()函數(shù)可以生成一個序列,統(tǒng)計包含n個最長遇到的輸入值以及相應的計數(shù)。這里,我們來實現(xiàn)統(tǒng)計一個文檔中,字母出現(xiàn)的個數(shù)。具體代碼如下:
import collections
c = collections.Counter()
with open('英文文檔.txt', 'rt') as f:
for line in f:
c.update(line.rstrip().lower())
for letter, count in c.most_common(5):
print("{}:{}".format(letter, count))
運行之后,效果如下:
這里統(tǒng)計的英文文檔中,空格最多,達到了124個。其他的一次都是前幾最多的個數(shù)。這樣我們可以通過Counter生成一個英文文檔中字母的頻度分布,在自然語言的處理當中。就可以完美的結(jié)合起來進行統(tǒng)計使用。
五、算數(shù)操作
Counter容器不僅可以統(tǒng)計頻度的分布。還可以進行一些算數(shù)運算。比如將兩個Counter容器進行相加進行統(tǒng)計,亦或者相減也行。具體操作如下:
import collections
c1 = collections.Counter('abcbcabds')
c2 = collections.Counter('abcbcabds')
print("原始值:")
print(c1)
print(c2)
print("算數(shù)運算后:")
print(c1 + c2)
print(c1 - c2)
print(c1 & c2)
print(c1 | c2)
運行之后,效果如下:
到此這篇python統(tǒng)計可散列的對象的文章就介紹到這了,更多Python學習內(nèi)容請搜索W3Cschool以前的文章或繼續(xù)瀏覽下面的相關(guān)文章。