關關採集器的規則編寫方法/教程：

05-30

第一步: 我們先複製一份原來的規則做模板比如說我今天演示的採集站點是 feiku 這個小說站點

那麼我就把我複製的那份做模板的規則命名為 dhabc.xml 這個主要是便於記憶

第二步: 我們運行採集器里的規則管理工具打開後載入剛剛我們命名為 dhabc.xml的這個XML文件

第三步: 開始正式編寫規則了

1. RULEID(規則編號) 這個任意

2. GetSiteName(站點名稱) 這裡我們寫飛庫網

3. GetSiteCharset(站點編碼) 這裡我們打開 www.dhabc.net 查找 charset= 這個 =號後面的就是我們需要的站點編碼

www.dhabc.net 我們查到的編碼是 gb2312

4. GetSiteUrl(站點地址) 這個就不用我說了吧寫入 http://www.dhabc.net/

5. NovelSearchUrl(站點搜索地址) 這個地址的獲得得按照每個網站程序的不同而言

不過呢有個通用的方法就是通過抓包來獲得自己想要的內容

雖然說是通過抓包來獲得但是怎麼就知道獲得的就是我們想要的呢

看我操作首先我們運行封包工具選擇 IEXPLORE.EXE 這個進程最好是你只開一個網站也就是你只打開了你要想編寫規則的那個網站確保進程里只有一個IEXPLORE.EXE這個進程

這裡我們我們可以看到提交的地址是 /book/search.aspx 我們來組合一下得到的地址是 http://www.dhabc.net/book/search.aspx

而提交內容的代碼是SearchKey=%C1%AB%BB%A8&SearchClass=1&SeaButton.x=26&SeaButton.y=10 但是對於我們有用的是 SearchKey=%C1%AB%BB%A8&SearchClass=1 這一段這裡獲得的這段將在NovelSearchData(搜索提交內容) 這裡用到把這段改成我們想要的代碼就是把這一段%C1%AB%BB%A8 替換成 {SearchKey} 這個表示搜索提交的內容完整的代碼是 SearchKey={SearchKey}&SearchClass=1

然後我們測試下是否正確經過測試我們獲得的內容是正確的

6. NovelListUrl(站點最新列表地址) 這個我就不說了因為這些每個站點的不同這個就需要自己去找了 FEIKU 的是 http://www.dhabc.net/Book/ShowBookList.aspx

7. NovelList_GetNovelKey(從最新列表中獲得小說編號此規則中可以同時獲得書名獲得書名是在手動模式的時候用到如果你要用手動模式那麼必須獲得書名否則手動模式將會無法使用)

我們打開 http://list.dhabc.net/book/showbooklist.aspx 這個地址查看源文件

我們編寫這個規則的時候找到想要獲得的內容所在的地方比如我們打開地址看到想要獲得的內容的第一本小說的名字是立地成魔我們在源文件裡面找到莫倫特傳

<ul>

<li class="li3"><a href="/html/book/130/150557/3946236.shtm" target="_blank">第一卷第八章黑暗崛起</a></li>

</ul>

我們編寫規則用到的代碼其實也不是很多我編寫規則的原則是能省則省也就是說代碼越短越好除非萬不得已一般精短一些比較好

好了不廢話了在這個規則裡面我們需要用到的是 <a href="http://www.dhabc.net/Book/149539/Index.html" target="_blank"><font color="#006633">立地成魔</font></a>

我們將這段改下 <a href="http://www.dhabc.net/Book/(d*)/Index.html" target="_blank"><font color="#006633">(.+?)</font></a> 其中 (d*) 表示編號 (.+?) 表示小說名經過測試正確

8. NovelUrl(小說信息頁地址) 這個很容易我們隨便點開一本小說就能知道了比如說 http://www.dhabc.net/Book/150557/Index.html 這本小說我們可以看到的我們改下將裡面的 150557 換成 {NovelKey} 一般情況表示小說編號 http://www.dhabc.net/Book/{NovelKey}/Index.html

9. NovelErr(小說信息頁錯誤識別標記) 這個一般是 http://www.dhabc.net/Book/149539/Index.html 吧中間的那個編號隨意改變下比如 http://www.dhabc.net/Book/15055799/Index.html 這樣我們獲得的錯誤標記就是未找到該編號的書籍信息!

10. NovelName(獲得小說名稱正則) 我們隨便打開一本小說 http://www.dhabc.net/Book/149539/Index.html 查看源代碼獲得小說名稱這個我們可以從固定模式著手比如我們剛才打開的立地成魔這本小說我們看到他的固定小說名格式是《立地成魔》那我們在源代碼里找到《立地成魔》這個我們得到的內容是 <div id="CrBookTitle"><span class="booktitle">《立地成魔》</span></div> 這一段我們改下 <div id="CrBookTitle"><span class="booktitle">《(.+?)》</span></div>

下面的 NovelAuthor(獲得小說作者) LagerSort(獲得小說大類) SmallSort(獲得小說大類) NovelIntro(獲得小說簡介) NovelKeyword(獲得小說主角(關鍵字)) NovelDegree(獲得寫作進程)

NovelCover(獲得小說封面) 這些呢我就不演示了這些跟上面的那個獲得小說名方法是一樣的也就所謂的一通百通

這裡有些時候獲得的內容裡面有些不想用到的因為格式不固定有些內容只能先獲得然後在用過濾功能過濾掉過濾的用法在後面有說

11. NovelInfo_GetNovelPubKey(獲得小說公眾目錄頁地址)

這個的地址獲得跟上面的一樣的方法這裡我就不說明了

12 PubIndexUrl(公眾目錄頁地址) 這個我說明一下這個的用法這個一般是在知道採集目標站的動態地址的時候用到如果不知道對方動態地址的話就在這個裡面寫入{NovelPubKey} 如果知道動態路徑

比如說 http://www.dhabc.net 這個站的沒本小說的章節目錄的動態地址是 http://www.dhabc.net/Book/149539/Index.aspx 那麼 PubIndexUrl 這個的規則就是 http://www.dhabc.net/Book/{NovelKey}/Index.aspx

13. PubVolumeSplit(分割分卷) 這個分割分卷有寫地方需要注意到如果分割分卷的正則沒對那麼有可能對於下面的獲得章節名那些有很大的影響這裡我們獲得分割部分的代碼呢按我的經驗呢是找到第一個分卷跟下面的分卷查看他們的共同處在我們分析 http://www.dhabc.net/html/book/130/149539/List.shtm 這個目錄章節裡面的源代碼可以看出他們有個共同點拿這一段來說明下 </ul>

<div id="feiku_e_n_d"></div> <div id="mmuu88">力量的追求 </div>

<ul>

從這裡我們可以看到他的共同點是

</ul>

<div id="feiku_e_n_d"></div> 我們吧他改下改成正則格式 </ul>s*<div id="feiku_e_n_d"></div>

其中的s* 表示匹配與任何白字元匹配，包括空格、製表符、分頁符等也就是說在 </ul> 與 <div id="feiku_e_n_d"></div> 之間不管有多少個空格都可以用 s* 來表示

14 . PubVolumeName(獲得分卷名) 想要獲得準確的分卷名必須在上面的分割部分的正則必須正確

一般情況下分割部分跟分卷名是在一塊的上面我們說明分割部分用到的 </ul>

<div id="feiku_e_n_d"></div> <div id="mmuu88">力量的追求 </div>

<ul> 這一段大家如果有注意看到的話會發現裡面有我們在這一步裡面要獲得的分卷名

我們改下代碼 <div id="mmuu88">(.+?)</div>s*<ul> 我們測試下正常獲得分卷但是有這些我們一般在過濾規則裡面過濾掉就行了

15. PubChapterName(獲得章節名) 這個我們拿一段來說明

<li><a title="更:2008-10-24 12:58:00

更:3264" href="3859084.shtm">強悍的馴服方法</a></li>

對於這種裡面有時間日期更新字數什麼的我們直接忽略因為這些不是我們要獲得的內容這個我們可以用 .+? 來表示有些人就問了為什麼我這裡沒用() 括起來呢這裡我跟大家說下我們獲得的內容是()裡面的內容如果不是你想要的內容但是寫規則的時候又必須用到的我們可以吧表達式稍微改下就可以了好了我們吧上面的那一段改下改成表達式 <li><a title="更.+?

更.+?" href="d*.shtm">(.+?)</a></li>

正常獲得內容這個大家是不是看著這個規則有些彆扭這個是因為中間有換行符導致的我沒改下代碼

我們用s* 來表示N個換行符我們改後的代碼是<li><a title="更.+?s*更.+?" href="d*.shtm">(.+?)</a></li> 現在是不是好些了經過測試也一樣正常獲得內容說明規則無問題

16. PubChapter_GetChapterKey(獲得章節地址(章節編號)) 這裡說明下這個裡面的章節編號是在下面的 PubContentUrl(章節內容頁地址)用到一般式知道目標站的動態地址靜態地址一般用不到在不知道目標站的動態地址那麼這裡我們需要獲得的是章節地址分析得到 <li><a title="更.+?

更.+?" href="(d*.shtm)">(.+?)</a></li> 這裡既然是獲得章節地址那為什麼我們還有用到章節名的呢這個說下主要就是為了避免獲得的章節名跟獲得的章節地址不匹配

這裡在說下章節編號的寫法其實並不麻煩只需要稍微改下就行了

<li><a title="更.+?

更.+?" href="(d*).shtm">(.+?)</a></li> 改成這樣就可以了

我們測試下看看看到了吧這樣改下就是獲得編號了這個獲得的編號只能在知道目標站動態地址的情況下采有用到

17. PubContentUrl(章節內容頁地址) 上面的獲得章節地址裡面有說明這個是在知道目標站的動態地址的情況下用到因為一般靜態地址用不到這裡我拿 http://www.dhabc.net/html/book/149539/3790336.ASPX 這個來說明下該怎麼用

其中的 149539 這個是小說編號這裡我們用 {NovelKey} 替代

3790336 這個就是在 PubChapter_GetChapterKey 裡面獲得的章節編號我們用 {ChapterKey} 替代

組合一下就是 http://www.dhabc.net/html/book/{NovelKey}/{ChapterKey}.ASPX 這個就是我們的動態章節地址了

!!!記住前提是知道對方的動態地址 !!! 如果不知道對方的動態地址那麼我們在 PubContentUrl(章節內容頁地址) 這裡寫的內容就是 {ChapterKey}

18. PubContentText(獲得章節內容) 這個獲得方法同於獲得章節名的那些這個就不說明了