自拍亚洲一区欧美另类,亚洲成人影院,亚洲午夜久久久久妓女影院,最近中文字幕高清中文字幕无,亚洲熟妇av一区二区三区漫画

互聯(lián)網(wǎng)知識(shí)

精準(zhǔn)傳達(dá) ? 價(jià)值共享

洞悉互聯(lián)網(wǎng)前沿資訊,探尋網(wǎng)站營(yíng)銷(xiāo)規(guī)律

采集俠定向規(guī)則采集

作者:Smileby陌少羽 | 2019-04-21 10:21 |點(diǎn)擊:

1、設(shè)置定向采集


1)、登錄您網(wǎng)站后臺(tái),模塊->采集俠->采集任務(wù),如果您的網(wǎng)站還沒(méi)有添加欄目,你需要先到織夢(mèng)的欄目管理里先添加欄目,如果已經(jīng)添加了欄目,你可能可以看到如下界面



2)、在彈出的頁(yè)面里選擇定向采集,如圖所示



3)、點(diǎn)擊添加采集規(guī)則,這就是添加定向采集規(guī)則的頁(yè)面了,這里我們要詳細(xì)說(shuō)下


2、設(shè)置 目標(biāo)頁(yè)面編碼

     打開(kāi)您要采集的網(wǎng)頁(yè),點(diǎn)擊鼠標(biāo)右鍵,點(diǎn)擊查看網(wǎng)站源碼,搜索charset,查看charset后面緊跟的是utf-8還是gb2312,如圖所示即為utf-8



3、設(shè)置 列表網(wǎng)址

     列表網(wǎng)址就是您要采集的網(wǎng)站的欄目列表地址
     如果只是單純采集列表頁(yè)的第一頁(yè),直接輸入該列表URL就行,如我要采集站長(zhǎng)之家的優(yōu)化欄目的第一頁(yè),那列表URL就輸入:http://www.chinaz.com/web/seo/,即可。采集第一頁(yè)的內(nèi)容的好處就是可以不用采集老舊的新聞,而且有新更新也可以及時(shí)采集到,如果需要采集該欄目的所有內(nèi)容,那也可以通過(guò)設(shè)置通配符的方式,匹配所有列表URL規(guī)則。

     匹配URL規(guī)則的方法也很簡(jiǎn)單,你只需要查看列表分頁(yè)的不同,加個(gè)通配符即可,如站長(zhǎng)之家的優(yōu)化欄目:

     第一頁(yè)的URL是:http://www.chinaz.com/web/seo/1.shtml
     第二頁(yè)的URL是:http://www.chinaz.com/web/seo/2.shtml
     第三頁(yè)的URL是:http://www.chinaz.com/web/seo/3.shtml

     通過(guò)觀察列表URL的變化,可以看出第一頁(yè)就是1.shtml,第二頁(yè)就是2.shtml,第三頁(yè)就是3.shtml,變換的就是頁(yè)碼而已,列表頁(yè)的URL通配符是 [開(kāi)始頁(yè)-結(jié)束頁(yè)] ,假如你要采集欄目前二十頁(yè)的,那么列表URL規(guī)則就是:http://www.chinaz.com/web/seo/[1-20].shtml,看到其中的區(qū)別了吧,就是在變換的部分加入通配符,從開(kāi)始頁(yè)到結(jié)束頁(yè)即可。


4、設(shè)置 文章網(wǎng)址

     文章URL規(guī)則和列表URL規(guī)則設(shè)置差不多,也是通配變換的部分,只是通配符不一樣而已,文章URL使用通配符 (*) 來(lái)匹配,有采集規(guī)則編寫(xiě)經(jīng)驗(yàn)的用戶可以很容易理解,通配符可以代替一個(gè)或多個(gè)真正的字符,通過(guò)下面例子更加直觀的了解通配符的使用方法。

     例:

     比如我要采集站長(zhǎng)之家優(yōu)化欄目里面的文章,他們的文章URL是
     http://www.chinaz.com/web/2011/0926/211708.shtml
     http://www.chinaz.com/web/2011/0926/211705.shtml
     http://www.chinaz.com/web/2011/0926/211694.shtml
     通配后的URL就是:http://www.chinaz.com/web/(*)/(*)/(*).shtml

     也就是說(shuō)數(shù)字部分是變換的部分,可以看得出他的URL結(jié)構(gòu)是年/月日/文章ID的形式,年月日和文章ID是會(huì)變換的,所以就通配這三部分內(nèi)容就行。

     我們可以輸入列表URL規(guī)則和文章URL規(guī)則,然后點(diǎn)擊測(cè)試,會(huì)看到下圖的測(cè)試結(jié)果,也就是匹配成功了,已經(jīng)列出成功匹配的列表URL和文章URL,測(cè)試的時(shí)候只顯示前十條結(jié)果以供觀察是否已經(jīng)匹配成功。

5、設(shè)置 標(biāo)題、作者、來(lái)源、內(nèi)容、分頁(yè)規(guī)則

     首先這個(gè)規(guī)則采集俠默認(rèn)都是自動(dòng)識(shí)別的,但是自動(dòng)識(shí)別的效果有可能沒(méi)有自己設(shè)置的好,也有可能有的網(wǎng)站采集俠識(shí)別不了,如果標(biāo)題和內(nèi)容采集俠識(shí)別不到那么就什么都采集不到了!所以這里建議是內(nèi)容規(guī)則最好手工設(shè)置,而作者和來(lái)源規(guī)則可以不設(shè)置,也可以到采集俠的高級(jí)設(shè)置菜單里設(shè)置成固定的作者以及來(lái)源。
     標(biāo)題、作者、來(lái)源、內(nèi)容和分頁(yè)規(guī)則的寫(xiě)法都是一樣的,懂得其中一項(xiàng)的寫(xiě)法,其他幾項(xiàng)都懂得了,所以這里就以?xún)?nèi)容規(guī)則來(lái)舉例說(shuō)明。

     采集俠是怎么根據(jù)你的規(guī)則找到文章內(nèi)容的呢,其實(shí)就是你寫(xiě)個(gè)規(guī)則告訴它文章從哪里開(kāi)始,從哪里結(jié)束,最后寫(xiě)成規(guī)則就是   開(kāi)始的地方的代碼[內(nèi)容]結(jié)束的地方的代碼,

     比如我要采集站長(zhǎng)之家優(yōu)化欄目里面的文章,打開(kāi)文章列表中其中一篇,
     如:
     http://www.chinaz.com/web/2015/0702/418785.shtml
     打開(kāi)后,右鍵查看源碼,通過(guò)查看源碼找到文章處,你可以通過(guò)搜索文章中的句子去找文章所在的大概位置



最后我們把前后的代碼做成規(guī)則,就是

<div class="article-detail-bd">[內(nèi)容]</div>

最后點(diǎn)擊測(cè)試,如果測(cè)試成功了點(diǎn)擊保存即可采集

如沒(méi)特殊注明,文章均為狐靈科技原創(chuàng),轉(zhuǎn)載請(qǐng)注明?? "采集俠定向規(guī)則采集
多一份免費(fèi)策劃方案,總有益處。

請(qǐng)直接添加技術(shù)總監(jiān)微信聯(lián)系咨詢(xún)

網(wǎng)站設(shè)計(jì) 品牌營(yíng)銷(xiāo)

多一份參考,總有益處

聯(lián)系狐靈科技,免費(fèi)獲得專(zhuān)屬《策劃方案》及報(bào)價(jià)

咨詢(xún)相關(guān)問(wèn)題或預(yù)約面談,可以通過(guò)以下方式與我們聯(lián)系

業(yè)務(wù)熱線:15082661954 / 大客戶專(zhuān)線:15523356218