scrapy 2.3 查找數(shù)據(jù)源

2021-06-16 14:36 更新

要提取所需的數(shù)據(jù),必須首先找到其源位置。

如果數(shù)據(jù)是非基于文本的格式,如圖像或PDF文檔,請(qǐng)使用 network tool 找到相應(yīng)的請(qǐng)求,以及 reproduce it .

如果您的Web瀏覽器允許您選擇所需的數(shù)據(jù)作為文本,則數(shù)據(jù)可以在嵌入的javascript代碼中定義,也可以從基于文本格式的外部資源加載。

在這種情況下,您可以使用類似 wgrep 以查找該資源的URL。

如果數(shù)據(jù)原來(lái)來(lái)自原始URL本身,則必須 inspect the source code of the webpage 以確定數(shù)據(jù)的位置。

如果數(shù)據(jù)來(lái)自不同的URL,則需要 reproduce the corresponding request .

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)