DedeCMS 采集教程

2018-08-18 11:14 更新
這一次我給大家介紹的是dede采集功能的使用,dede的采集功能很受站長(zhǎng)們歡迎,但一些剛接觸dede的朋友可能會(huì)對(duì)這個(gè)功能感到很陌生。


對(duì)于大多數(shù)網(wǎng)站來說,現(xiàn)在廣告是網(wǎng)站收入的一個(gè)重要來源,因此在網(wǎng)頁(yè)中常會(huì)嵌入廣告代碼。我們?cè)诓杉臅r(shí)候,如何將其過濾掉,從而避免了自己幫別人免費(fèi)掛廣告呢?又例如某些文章里面某些關(guān)鍵詞有了他們自己網(wǎng)站上的其他文章鏈接,你是否愿意讓你辛苦采集回來的文章里包含了他的鏈接?這一切,只需簡(jiǎn)單的過濾規(guī)則,即可給你一篇干凈的文章。


dede的過濾規(guī)則并不難寫,其寫法如下面
{dede:trim}這里就是要過濾的內(nèi)容{/dede:trim}
如果你要過濾的內(nèi)容比較簡(jiǎn)單的代碼,完全可以直接在“{dede:trim}”和“{/dede:trim}”之間寫上,如果比較復(fù)雜的就要用到正則了。


1、例如采集中去除內(nèi)容里的超鏈接的規(guī)則如下:

{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}


假如要將所有超鏈接內(nèi)容都去除,規(guī)則是:{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
這兩個(gè)規(guī)則的不同通過下面代碼來解釋
例如文章代碼中包含著如下內(nèi)容:<a href="#">超鏈接</a>
通過第一個(gè)規(guī)則,我們采集來的結(jié)果是:超鏈接
通過第二個(gè)規(guī)則,我們采集來的結(jié)果是:空白,即是將所有內(nèi)容都過濾掉了。


2、過濾廣告

對(duì)于廣告來說,過濾規(guī)則就得針對(duì)html中看到的內(nèi)容使用規(guī)則了,例如某些廣告僅僅是引用某個(gè)JS文件,例如
<script src=’/plus/ad_js.php?aid=4′ language=’javascript’></script>
這樣的規(guī)則只需
{dede:trim}<script(.*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}
如果某些廣告的內(nèi)容是JS代碼寫在<script></script>區(qū)間里的,例如GG的廣告,那么過濾規(guī)則應(yīng)該是:
{dede:trim}<script>(.*)</script>{/dede:trim}


3、下面是一些常識(shí)用的過濾規(guī)則


{dede:trim}<!–(.*)–>{/dede:trim}
{dede:trim}<select([^>]*)>([^>]*)</select>{/dede:trim}
{dede:trim}<option([^>]*)>([^>]*)</option>{/dede:trim}
{dede:trim}<select([^>]*)>{/dede:trim}
{dede:trim}</select>{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<span([^>]*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<script>(.*)</script>{/dede:trim}
{dede:trim}<script(.*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}




———————————–
對(duì)于下面這些規(guī)則就請(qǐng)慎用
———————————–


{dede:trim}<div(.*)>{/dede:trim}
{dede:trim}</div>{/dede:trim}
{dede:trim}<stong>{/dede:trim}
{dede:trim}</stong>{/dede:trim}
{dede:trim}<div(.*)>(.*)</div>{/dede:trim}
{dede:trim}<center(.*)>{/dede:trim}
{dede:trim}</center>{/dede:trim}
{dede:trim}<p(.*)>{/dede:trim}
{dede:trim}</p>{/dede:trim}
{dede:trim}<span(.*)>{dede:trim}
{dede:trim}</span>{dede:trim}
{dede:trim}<img(.*)>{/dede:trim}
{dede:trim}<div(.*)>{/dede:trim}
{dede:trim}</div>{/dede:trim}




以上就是本篇要介紹的內(nèi)容,正則也許并不是每處都用得上,但當(dāng)你了解其寫法后,自己也可以寫出一些更加適合自己使用的規(guī)則出來。
這些都是非常使用又非常容易理解的過濾規(guī)則,如果你想讓你的收集更加簡(jiǎn)便,更加人性化.這些就要掌握好喔.
以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)