欧洲中文日韩亚洲精品视频,亚洲综合在线精品,亚洲国产成人在线免费

TimberSwift 2016-10-21

爬蟲是利用互聯(lián)網(wǎng)超鏈接的技術(shù)產(chǎn)生的數(shù)據(jù)爬取的工具（就是用來“抄”網(wǎng)站的資源）

python和爬蟲是不能混為一談的，大家經(jīng)常提python爬蟲的原因是有成熟的基于python實現(xiàn)的爬蟲框架。爬蟲的原因有多種，最普通的是深搜廣搜：

深搜就是先把第一個鏈走到頭，再回溯走支路;

廣搜就是先把第一層都遍歷一遍，再遍歷第二層......

4 0 分享 0 舉報

LIGHT 2017-02-23

1.首先，什么時候我們需要爬蟲呢？

當我們需要某網(wǎng)站上的海量數(shù)據(jù)的時候，會發(fā)現(xiàn)，如果人工去把幾百頁，每頁幾十條到幾百條的數(shù)據(jù)一條一條地復(fù)制下來，就太費時費力了，甚至根本就不可能。但是你做研究卻需要這樣的大量數(shù)據(jù)的支持。這個時候就可以用到爬蟲了。

2.爬蟲是什么原理呢？

爬蟲我也給不出精確的定義，按照我自己的理解，爬蟲就是讓電腦程序模仿人去網(wǎng)頁上查詢信息的過程，來幫助人們自動地迅速地獲取網(wǎng)頁信息的一個技術(shù)。常用的方法就是讓電腦程序去掃描網(wǎng)頁的源代碼，按照你的指示去尋找對應(yīng)的內(nèi)容（比如你需要所有標簽p的內(nèi)容，或者你需要某個class的內(nèi)容）。爬蟲時還經(jīng)常涉及翻頁，那你也需要去翻看網(wǎng)頁源代碼，找到各個頁的網(wǎng)址的關(guān)系（通常網(wǎng)址的前面都是一樣的，就是后面的一個數(shù)字在不斷遞增），然后告訴程序按照這樣的規(guī)律去爬所有的頁面。這樣每一頁的所有你需要的內(nèi)容就到手了。

我個人覺得爬蟲最耗時的過程倒是不寫代碼，而是分析網(wǎng)頁源代碼的HTML結(jié)構(gòu)，找到你需要的內(nèi)容對應(yīng)的精確的標簽。這樣你的爬蟲程序才能有的放矢地迅速獲取你想要的內(nèi)容。

3.用什么去爬蟲？

我個人也是個菜鳥，對于我這個菜鳥來說，Python簡直就是簡單好用讓人感動！而且我用PyCharm的IDE自帶很多工具包，我寫爬蟲就用BeautifulSoup包，十分的簡單，爬一般的網(wǎng)站的文本數(shù)據(jù)，10-20行代碼肯定沒問題。你可以去了解一下BeautifulSoup，相信學(xué)起來很有趣味的！嘻嘻~~

祝你學(xué)得開心~歡迎互相交流哦！

4 0 分享 0 舉報

Silence廣 2018-01-20

當我們需要某網(wǎng)站上的海量數(shù)據(jù)的時候，會發(fā)現(xiàn)，如果人工去把幾百頁，每頁幾十條到幾百條的數(shù)據(jù)一條一條地復(fù)制下來，就太費時費力了，甚至根本就不可能。但是你做研究卻需要這樣的大量數(shù)據(jù)的支持。這個時候就可以用到爬蟲了。

0 0 分享 0 舉報

af360c80f8191c6af61579 2018-03-03

爬蟲能爬視頻、音頻數(shù)據(jù)嗎？如何實現(xiàn)呢

0 0 分享 0 舉報

一筆荒蕪 2018-05-31

剛學(xué)習(xí)程序,過來學(xué)習(xí)學(xué)習(xí)!!!!...

0 0 分享 0 舉報

1144100656 2018-05-31

這個問題我也不清楚,等大佬來解決吧。。

0 0 分享 0 舉報

1152696398 2018-05-31

剛學(xué)習(xí)程序,過來學(xué)習(xí)學(xué)習(xí)!!!!...

0 0 分享 0 舉報

404leader 2018-12-22

剛開始學(xué)習(xí)，很希望做好爬蟲

0 0 分享 0 舉報

Hoang6689 2019-01-01

比如我要寫一篇論文吧，剛好某個網(wǎng)站有大量我需要的資源，而且那個網(wǎng)站數(shù)據(jù)量很大，我總不能花時間一篇一篇的去找吧，那樣需要花費大量的時間，我也沒那么多精力。需求數(shù)據(jù)、獲取數(shù)據(jù)、分析數(shù)據(jù)、提取有用數(shù)據(jù)。

0 0 分享 0 舉報

碼友1526043 2019-10-22

剛開始學(xué)習(xí)，很希望做好爬蟲

0 0 分享 0 舉報

Python爬蟲具體應(yīng)該怎么使用？

回答(10)

熱門問答