|
文章內(nèi)容匹配、分頁(yè)內(nèi)容匹配都進(jìn)行完后,最后就只有“過(guò)濾”了,包括分頁(yè)區(qū)域過(guò)濾和文章內(nèi)容過(guò)濾。據(jù)本人的感覺(jué),上面的兩個(gè)規(guī)則都好寫(xiě),只要找到全部鏈接中的“唯一性”代碼就搞定,但過(guò)濾規(guī)則里卻是欲說(shuō)還休,道不盡的無(wú)窮奧妙……哈哈,感覺(jué)就是這樣。尤其如我一般的新手,對(duì)“正則”這個(gè)東西如臨天書(shū),找了幾個(gè)正則方面的軟件吧仍覺(jué)無(wú)從下手,就只好依樣畫(huà)樣,照貓畫(huà)虎,依葫蘆畫(huà)瓢地摸索了。
好了,閑話了。也累了,聽(tīng)聽(tīng)《加州旅館》吧,在這:加州旅館_老鷹樂(lè)隊(duì)94現(xiàn)場(chǎng) 放松下吧。
你一眼看出來(lái)了過(guò)濾規(guī)則怎么寫(xiě)么,反正我是沒(méi)能看得出來(lái),沒(méi)辦法,新手就是新手呀。不管它,那就依照原范例的分頁(yè)過(guò)濾規(guī)則寫(xiě)個(gè)規(guī)則試試看看結(jié)果吧:
復(fù)制代碼 代碼如下:
{dede:trim}<td align='center' height='30'>(.*)頁(yè)次{/dede:trim}
采集一下:

分頁(yè)成功了,但廢碼多,還得改!
看下多余的代碼特征,好象是過(guò)濾范圍不夠,后面的很多內(nèi)容都要過(guò)濾掉。那好,把過(guò)濾區(qū)域再往后移,直接移至描紅部分吧(其實(shí)我在改過(guò)濾規(guī)則的時(shí)候,改了好幾次,這里就一次到位吧,不耽誤朋友們的時(shí)間了):

寫(xiě)個(gè)完整的分頁(yè)過(guò)濾規(guī)則:
復(fù)制代碼 代碼如下:
{dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim}
再采集下,看看結(jié)果:

好了,分頁(yè)成功,無(wú)多余代碼。至此,全部主要的代碼部分完成。
結(jié)果在這里:
有分頁(yè)的:黨員干部作風(fēng)整頓剖析材料
無(wú)分頁(yè)的: 文藝部工作計(jì)劃
寫(xiě)一個(gè)完成的站點(diǎn)規(guī)則:
復(fù)制代碼 代碼如下:
{!-- 節(jié)點(diǎn)基本信息 --}
{dede:item name='天水_工作計(jì)劃_1頁(yè)'
imgurl='/upimg' imgdir='../upimg' language='gb2312' typeid='1' macthtype='string'}
{/dede:item}
{!-- 采集列表獲取規(guī)則 --}
{dede:list source='var' sourcetype='list'
varstart='' varend=''}
{dede:url value='http://www.tiansou.NET/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html'}{/dede:url}
{dede:need}Gzjh/2007-{/dede:need}
{dede:cannot}Gzjh/2007-1{/dede:cannot}
{dede:linkarea}[var:區(qū)域]{/dede:linkarea}
{/dede:list}
{!-- 網(wǎng)頁(yè)內(nèi)容獲取規(guī)則 --}
{dede:art}
{dede:sppage sptype='full'}<td align='center' height='30'>首頁(yè) 上頁(yè)[var:分頁(yè)區(qū)域]頁(yè)次{/dede:sppage}
{dede:note field='dede_archives.title' value='[var:內(nèi)容]' comment='文章標(biāo)題'
isunit='' isdown=''}
{dede:match}<title>[var:內(nèi)容]--天水搜索</title>{/dede:match}
{dede:function}{/dede:function}
{/dede:note}
{dede:note field='dede_archives.sortrank' value='[var:內(nèi)容]' comment='排序級(jí)別'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me = time();{/dede:function}
{/dede:note}
{dede:note field='dede_archives.writer' value='[var:內(nèi)容]' comment='文章作者'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:note}
{dede:note field='dede_archives.litpic' value='[var:內(nèi)容]' comment='縮略圖'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me = @litpic;{/dede:function}
{/dede:note}
{dede:note field='dede_archives.pubdate' value='[var:內(nèi)容]' comment='發(fā)布時(shí)間'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}if(@me!="") @me = GetMkTime(@me);
else @me = time();{/dede:function}
{/dede:note}
{dede:note field='dede_archives.senddate' value='[var:內(nèi)容]' comment='錄入時(shí)間'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me = time();{/dede:function}
{/dede:note}
{dede:note field='dede_addonarticle.body' value='[var:內(nèi)容]' comment='文章內(nèi)容'
isunit='1' isdown='1'}
{dede:match}</TR>
<TR>
<TD height="8"></TD>
</TR>
<TR>
<TD valign="top" class=ConNET><p>[var:內(nèi)容]</p>
</TD>
</TR>{/dede:match}
{dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim}
{dede:trim}
{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<img([^>]*)>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim} {/dede:trim}
{dede:function}{/dede:function}
{/dede:note}
{dede:note field='dede_archives.source' value='[var:內(nèi)容]' comment='文章來(lái)源'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me ='互聯(lián)網(wǎng)'{/dede:function}
{/dede:note}
{/dede:art}
php技術(shù):dede3.1分頁(yè)文字采集過(guò)濾規(guī)則詳說(shuō)(圖文教程)續(xù)四,轉(zhuǎn)載需保留來(lái)源!
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。