App下載

Python爬蟲基礎入門實例

猿友 2020-12-14 14:17:13 瀏覽數(shù) (3409)
反饋

       本文涉及的主要知識點如下:

  • WEB 是如何交互的;
  • requests 庫的 get、post 函數(shù)的應用;
  • response 對象的相關(guān)函數(shù)及其屬性。

 環(huán)境:Python3.6 + Pycharm

 庫:requests

       小編在本文中代碼都已給出了詳細注釋,并且可直接運行。

       首先,屏幕前的小伙伴們需要先安裝 requests 庫,安裝之前需先安裝好 Python 環(huán)境,如未安裝,小編在這給小伙伴們提供最新的 Python 編譯器安裝教程:Python 最新 3.9.0 編譯器安裝教程。

       安裝好 Python 環(huán)境后,windows 用戶打開 cmd 命令輸入以下命令即可(其余系統(tǒng)安裝大致相同)。

 pip install requests

       Linux 用戶:

 sudo pip install requests

       接下來就是實例講解啦,小伙伴們多多動手操練吶!


1、爬取百度首頁頁面,并獲取頁面信息

實例

# 爬取百度頁面 

import requests #導入requests爬蟲庫

resp = requests.get('http://www.baidu.com') #生成一個response對象

resp.encoding = 'utf-8' #設置編碼格式為 utf-8

print(resp.status_code) #打印狀態(tài)碼

print(resp.text) #輸出爬取的信息


2、requests 庫 get 方法實例

       在此之前先給大家介紹一個網(wǎng)址:httpbin.org,這個網(wǎng)站能測試 HTTP 請求和響應的各種信息,比如 cookie、ip、headers 和登錄驗證等,且支持 GET、POST 等多種方法,對 web 開發(fā)和測試很有幫助。它用 Python + Flask 編寫,是一個開源項目。

官方網(wǎng)站:http://httpbin.org/

開源地址:https://github.com/Runscope/httpbin

實例

# get方法實例

import requests #導入requests爬蟲庫

resp5、爬取網(wǎng)頁圖片,并保存到本地。5、爬取網(wǎng)頁圖片,并保存到本地。 = requests.get("http://httpbin.org/get")  #get方法

print( resp.status_code ) #打印狀態(tài)碼

print( resp.text ) #輸出爬取的信息


3、requests 庫 post 方法實例

實例

# post方法實例

import requests #導入requests爬蟲庫

resp = requests.post("http://httpbin.org/post")  #post方法

print( resp.status_code ) #打印狀態(tài)碼

print( resp.text ) #輸出爬取的信息


4、requests庫 put 方法實例

實例

# put方法實例

import requests #導入requests爬蟲庫

resp = requests.put("http://httpbin.org/put")  # put方法

print( resp.status_code ) #打印狀態(tài)碼

print( resp.text ) #輸出爬取的信息


5、requests 庫 get 方法傳參

想要使用 get 方法傳遞參數(shù),有兩種方法可行:

  1. 在 get 方法之后加上要傳遞的參數(shù)用“=”號鏈接并用“&”符號隔開;
  2. 使用 params 字典傳遞多個參數(shù)。實例如下:

實例

# get傳參方法實例1

import requests #導入requests爬蟲庫

resp = requests.get("http://httpbin.org/get?name=w3cschool&age=100")  # get傳參

print( resp.status_code ) #打印狀態(tài)碼

print( resp.text ) #輸出爬取的信息

實例

# get傳參方法實例2

import requests #導入requests爬蟲庫

data = {

"name":"w3cschool",

"age":100

} #使用字典存儲傳遞參數(shù)

resp = requests.get( "http://httpbin.org/get" , params=data )  # get傳參

print( resp.status_code ) #打印狀態(tài)碼

print( resp.text ) #輸出爬取的信息


6、requests 庫 post 方法傳參

       使用 post 方法傳遞參數(shù)和使用 get 方法傳遞參數(shù)的方法二是類似的。實例如下:

實例

# post傳參方法實例

import requests #導入requests爬蟲庫

data = {

"name":"w3cschool",

"age":100

} #使用字典存儲傳遞參數(shù)

resp = requests.post( "http://httpbin.org/post" , params=data )  # post傳參

print( resp.status_code ) #打印狀態(tài)碼

print( resp.text ) #輸出爬取的信息


7、如何繞過各大網(wǎng)站的反爬蟲措施,以貓眼票房為例:

實例

import requests  #導入requests爬蟲庫

url = 'http://piaofang.maoyan.com/dashboard' #貓眼票房網(wǎng)址地址

headers = {

 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

} #設置頭部信息,偽裝瀏覽器

resp = requests.get(url, headers=headers) #

print(resp.status_code) #打印狀態(tài)碼

print(resp.text) #網(wǎng)頁信息


8、爬取網(wǎng)頁圖片,并保存到本地。

       先在E盤建立一個爬蟲目錄,才能夠保存信息,小伙伴們可自行選擇目錄保存,在代碼中更改相應目錄代碼即可。

實例

import requests #導入requests爬蟲庫

headers = {

 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

} #設置頭部信息,偽裝瀏覽器

resp = requests.get('http://7n.w3cschool.cn/statics/img/logo/indexlogo@2x.png', headers = headers)  #get方法的到圖片響應

file = open("E:\\爬蟲\\test.png","wb") #打開一個文件,wb表示以二進制格式打開一個文件只用于寫入

file.write(resp.content) #寫入文件

file.close() #關(guān)閉文件操作

      學以致用,希望屏幕前的小伙伴們能夠多多聯(lián)系,結(jié)合實際多加操作。推薦閱讀:Python 靜態(tài)爬蟲Python Scrapy網(wǎng)絡爬蟲。


0 人點贊