scrapy 2.3 處理不同的響應(yīng)格式

2021-06-17 11:56 更新

一旦對所需數(shù)據(jù)進行響應(yīng)，如何從中提取所需數(shù)據(jù)取決于響應(yīng)類型：

data = json.loads(response.text)

如果所需數(shù)據(jù)位于嵌入在JSON數(shù)據(jù)中的HTML或XML代碼內(nèi)，則可以將該HTML或XML代碼加載到 ?Selector? 然后 use it 和往常一樣：

selector = Selector(data['html'])

如果響應(yīng)是javascript，或HTML ?<script/>? 包含所需數(shù)據(jù)的元素，請參見分析javascript代碼 .
如果響應(yīng)是css，請使用 regular expression 從中提取所需數(shù)據(jù) ?response.text? .

如果響應(yīng)是基于圖像的圖像或其他格式（例如PDF），則從 ?response.body? 并使用OCR解決方案將所需數(shù)據(jù)提取為文本。例如，您可以使用 pytesseract. 要從PDF中讀取表格， tabula-py 可能是更好的選擇。
如果響應(yīng)是SVG，或者帶有包含所需數(shù)據(jù)的嵌入式SVG的HTML，則可以使用 selectors ，因為SVG是基于XML的。否則，可能需要將SVG代碼轉(zhuǎn)換為柵格圖像，并且 handle that raster image .

以上內(nèi)容是否對您有幫助：

寫筆記

我要補充

推薦文章