App下載
話題 首頁(yè) > Python2 教程 > Python2 教程話題列表 > 詳情

Python爬蟲具體應(yīng)該怎么使用?

精華
renyuanzhou 2016-10-21 11:14:37 瀏覽(14842) 回復(fù)(10) 贊(1)
剛好編程,經(jīng)常在各個(gè)地方看到Python爬蟲這個(gè)概念,但是不這個(gè)到底什么原理,怎么使用?求大神指點(diǎn)一二。
python

回答(10)

TimberSwift 2016-10-21

爬蟲是利用互聯(lián)網(wǎng)超鏈接的技術(shù)產(chǎn)生的數(shù)據(jù)爬取的工具(就是用來(lái)“抄”網(wǎng)站的資源)

python和爬蟲是不能混為一談的,大家經(jīng)常提python爬蟲的原因是有成熟的基于python實(shí)現(xiàn)的爬蟲框架。 爬蟲的原因有多種,最普通的是深搜廣搜:

深搜就是先把第一個(gè)鏈走到頭,再回溯走支路;

廣搜就是先把第一層都遍歷一遍,再遍歷第二層......

LIGHT 2017-02-23

1.首先,什么時(shí)候我們需要爬蟲呢?

當(dāng)我們需要某網(wǎng)站上的海量數(shù)據(jù)的時(shí)候,會(huì)發(fā)現(xiàn),如果人工去把幾百頁(yè),每頁(yè)幾十條到幾百條的數(shù)據(jù)一條一條地復(fù)制下來(lái),就太費(fèi)時(shí)費(fèi)力了,甚至根本就不可能。但是你做研究卻需要這樣的大量數(shù)據(jù)的支持。這個(gè)時(shí)候就可以用到爬蟲了。

2.爬蟲是什么原理呢?

爬蟲我也給不出精確的定義,按照我自己的理解,爬蟲就是讓電腦程序模仿人去網(wǎng)頁(yè)上查詢信息的過(guò)程,來(lái)幫助人們自動(dòng)地迅速地獲取網(wǎng)頁(yè)信息的一個(gè)技術(shù)。常用的方法就是讓電腦程序去掃描網(wǎng)頁(yè)的源代碼,按照你的指示去尋找對(duì)應(yīng)的內(nèi)容(比如你需要所有標(biāo)簽p的內(nèi)容,或者你需要某個(gè)class的內(nèi)容)。爬蟲時(shí)還經(jīng)常涉及翻頁(yè),那你也需要去翻看網(wǎng)頁(yè)源代碼,找到各個(gè)頁(yè)的網(wǎng)址的關(guān)系(通常網(wǎng)址的前面都是一樣的,就是后面的一個(gè)數(shù)字在不斷遞增),然后告訴程序按照這樣的規(guī)律去爬所有的頁(yè)面。這樣每一頁(yè)的所有你需要的內(nèi)容就到手了。

我個(gè)人覺(jué)得爬蟲最耗時(shí)的過(guò)程倒是不寫代碼,而是分析網(wǎng)頁(yè)源代碼的HTML結(jié)構(gòu),找到你需要的內(nèi)容對(duì)應(yīng)的精確的標(biāo)簽。這樣你的爬蟲程序才能有的放矢地迅速獲取你想要的內(nèi)容。

3.用什么去爬蟲?

我個(gè)人也是個(gè)菜鳥,對(duì)于我這個(gè)菜鳥來(lái)說(shuō),Python簡(jiǎn)直就是簡(jiǎn)單好用讓人感動(dòng)!而且我用PyCharm的IDE自帶很多工具包,我寫爬蟲就用BeautifulSoup包,十分的簡(jiǎn)單,爬一般的網(wǎng)站的文本數(shù)據(jù),10-20行代碼肯定沒(méi)問(wèn)題。你可以去了解一下BeautifulSoup,相信學(xué)起來(lái)很有趣味的!嘻嘻~~

祝你學(xué)得開(kāi)心~歡迎互相交流哦!

Silence廣 2018-01-20

當(dāng)我們需要某網(wǎng)站上的海量數(shù)據(jù)的時(shí)候,會(huì)發(fā)現(xiàn),如果人工去把幾百頁(yè),每頁(yè)幾十條到幾百條的數(shù)據(jù)一條一條地復(fù)制下來(lái),就太費(fèi)時(shí)費(fèi)力了,甚至根本就不可能。但是你做研究卻需要這樣的大量數(shù)據(jù)的支持。這個(gè)時(shí)候就可以用到爬蟲了。

爬蟲能爬視頻、音頻數(shù)據(jù)嗎?如何實(shí)現(xiàn)呢

一筆荒蕪 2018-05-31

剛學(xué)習(xí)程序,過(guò)來(lái)學(xué)習(xí)學(xué)習(xí)!!!!...

1144100656 2018-05-31

這個(gè)問(wèn)題我也不清楚,等大佬來(lái)解決吧。。

1152696398 2018-05-31

剛學(xué)習(xí)程序,過(guò)來(lái)學(xué)習(xí)學(xué)習(xí)!!!!...

404leader 2018-12-22

剛開(kāi)始學(xué)習(xí),很希望做好爬蟲

Hoang6689 2019-01-01

比如我要寫一篇論文吧,剛好某個(gè)網(wǎng)站有大量我需要的資源,而且那個(gè)網(wǎng)站數(shù)據(jù)量很大,我總不能花時(shí)間一篇一篇的去找吧,那樣需要花費(fèi)大量的時(shí)間,我也沒(méi)那么多精力。需求數(shù)據(jù)、獲取數(shù)據(jù)、分析數(shù)據(jù)、提取有用數(shù)據(jù)。

碼友1526043 2019-10-22

剛開(kāi)始學(xué)習(xí),很希望做好爬蟲

要回復(fù),請(qǐng)先登錄 或者注冊(cè)