App下載

【Python】分析魚(yú)C論壇熱帖

猿友 2018-09-21 17:00:52 瀏覽數(shù) (5293)
反饋

本文轉(zhuǎn)載至知乎ID:Charles(白露未晞)知乎個(gè)人專(zhuān)欄

下載W3Cschool手機(jī)App,0基礎(chǔ)隨時(shí)隨地學(xué)編程>>戳此了解

導(dǎo)語(yǔ)

利用python爬取魚(yú)C論壇最新熱門(mén)帖子信息并做簡(jiǎn)要分析,相信很多人對(duì)魚(yú)C論壇并不陌生吧,畢竟小甲魚(yú)出品的課程對(duì)新手還是很友好滴,基本上都是褒多貶少的狀態(tài)。

讓我們愉快地開(kāi)始吧~


相關(guān)文件

提取碼: wpae

開(kāi)發(fā)工具


Python版本:3.6.4

相關(guān)模塊:

requests模塊;

pyecharts模塊;

jieba模塊;

wordcloud模塊;

以及一些Python自帶的模塊。

環(huán)境搭建


安裝Python并添加到環(huán)境變量,pip安裝需要的相關(guān)模塊即可。


原理簡(jiǎn)介


抓取目標(biāo):

魚(yú)C論壇最新熱門(mén)帖子信息:


通過(guò)requests模塊+正則表達(dá)式即可實(shí)現(xiàn)抓取所有帖子的信息了。

分析目標(biāo):

將抓取到的帖子信息數(shù)據(jù)可視化,看看如何發(fā)帖子才能上魚(yú)C熱門(mén)。

主要通過(guò)pyecharts和wordcloud模塊來(lái)實(shí)現(xiàn)信息數(shù)據(jù)的可視化分析。


結(jié)果展示

信息抓?。?/span>

在cmd窗口運(yùn)行FCSpider.py文件即可,效果如下圖所示:


數(shù)據(jù)分析:

在cmd窗口運(yùn)行analysis.py文件即可。

首先讓我們來(lái)看看魚(yú)C論壇哪個(gè)版塊的內(nèi)容更容易上熱門(mén):




顯然,Python大哥獨(dú)占鰲頭,占了魚(yú)C論壇所有熱貼數(shù)量的56.19%,因此想上魚(yú)C論壇的熱貼,當(dāng)然首選Python主題啊!

或許有人會(huì)說(shuō),帖子數(shù)量說(shuō)明不了問(wèn)題啊,萬(wàn)一是有人惡意刷帖呢?(一個(gè)可能不太合適的比方),那么我們?cè)賮?lái)分析分析每個(gè)帖子的參與人數(shù)、回復(fù)量和查看量吧!

首先是參與人數(shù)(均未去重):


其中參與人數(shù)最多的10個(gè)熱帖中Python的占比也很高,為:


因此從參與人數(shù)上看,python依舊無(wú)出其右,一枝獨(dú)秀。

再來(lái)看看回復(fù)量和查看量:



結(jié)論依舊沒(méi)有變,看來(lái)想在魚(yú)C論壇混個(gè)熱帖,發(fā)python主題是最佳選擇。

最后,我們將所有熱門(mén)主題的標(biāo)題制作成詞云,看看如何才能成為一名合格的"標(biāo)題黨":


OK,可以愉快地去水貼拿熱門(mén)了~

完整源代碼和結(jié)果詳見(jiàn)相關(guān)文件。


更多

代碼在2018年8月31日前測(cè)試無(wú)誤


0 人點(diǎn)贊