採集教程及採集分頁設置問題

其實採集可以這麼理解,定義頭和尾,除了在截取鏈接不需要檢測,在其它地方你定義的頭和尾,在同一個html表裡不能有相同的,為什麼不能有相同的呢?是因為採集的每一步(除了截取鏈接外)都是根據你所定義的頭和尾來截取頁面內容的。所以你在定義頭和尾不僅不能有相同的,還要儘可能地把不需要的內容排除開。如果你理解了這個定義頭和尾,基本上對於簡單的頁面是能採集的。下面我以一個實例來說明一下: 以下內容為程序代碼: 新聞列表網址:http://ent.qq.com/newxw/thd_sjym.htmhttp://ent.qq.com/newxw/thd_sjym.htmhttp://ent.qq.com/newxw/thd_sjym.htm 列表開始代碼:<tdstyle="padding-left:6px;"><tableborder="0"cellpadding="0"cellspacing="0"class="table_logo"> 列表結束代碼:<tdheight="5"colspan="2"></td> 鏈接開始代碼:·<atarget="_blank"href=" 鏈接結束代碼:"> 標題開始標記:<title> 標題結束標記:</title> 正文開始標記:<divid="ArticleCnt"> 正文結束標記:<divid="ArticleTopic"></div> 上面所採集的頁面是比較標準的。現在來分析一下: 列表網址:就是你要採集的頁面,這一步很關鍵,以前這一步我是亂搞,現在發現這一步關係到你能否採集完所有內容。一般你進入採集頁面先判斷一下是不是有多頁,如果有多頁你進入第二頁和第一頁是不是有規律變化,比如是:xxxx_1.htm,xxx_2.htm,特別注意數字,如果第一頁開始就有_id的規律,那就把第一頁作為列表網址,如果第一頁與第二頁沒相關規律,而是從第二頁開始才能這樣的規律,那將第二頁作為列表網址,第一頁放到一邊,等所有數據採集完了,再來採集單獨頁面,反正以後也只採集第一頁,為啥?因為一般更新的都在第一頁。 列表開始與結束:這裡就是向採集程序說明你要採集的內容大概方向,比如上例里的列表網址,裡面有好多內容,我只採集右邊的新聞,這時你可以搜索第一條新聞,向上看,找段在這個HTML文件里唯一的內容,這裡定義頭和尾要值得注意的是:空格也算的。比如<ahref前有四個空格,這也算個特徵,反正不管怎麼樣,只要是全文僅有的就行。同樣方法,只是這次搜索最後一條新聞,定位一下,省得全文亂找,浪費時間,往下推找個全文僅有的代碼, 鏈接開始與結束,這裡你得看一下採集頁面了,然後再看HTML文件,一般是<ahref=開始,>結束。中間的內容就讓採集程序幫你去放 到這裡已經接近成功了,這時為了保險一點,隨機點五個頁面,找五個頁面的共同點,把標題開始與結束,正文開始與結束填一下, 最後測試一下。應該可以了吧。 下面談談分頁,分頁有二種,一種是採集頁的分頁,另一種是文章內容的分頁。 採集頁的分頁: 例: 以下內容為程序代碼: 新聞列表網址:http://www.pconline.com.cn/mobile/news/hgxz/index_1.htmlhttp://www.pconline.com.cn/mobile/news/hgxz/index_1.html 列表開始代碼:1pxsolid;">文章列表</TD> 列表結束代碼:<DIVALIGN="CENTER"> 列表索引分頁:批量生成:http://www.pconline.com.cn/mobile/news/hgxz/index_{$ID}.htmlhttp://www.pconline.com.cn/mobile/news/hgxz/index_{$ID}.html 生成範圍:4to1 鏈接開始代碼:<ahref=" 鏈接結束代碼:target="_blank" 標題開始標記:<title> 標題結束標記:-太平洋電腦網Pconline-[手機新品速遞]</title> 正文開始標記:廣告:ad_top</IFRAME> 正文結束標記:<brclear=all> 請注意列表網址與列表索引分頁鏈接的不同之處:就是將index_1.html改為了index_{$ID}.html, 生成範圍:這裡有多少頁就?to?,有二種選擇,由後到前,前到後,隨便你喜好。 內容頁的分頁: 例: 以下內容為程序代碼: 新聞列表網址:http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146 列表開始代碼:<tdclass="filter4"width_="350"><fontcolor="#FFFFFF">手機資訊 列表結束代碼:<tdheight="2"></td> 批量生成:http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146 生成範圍:10to1(這樣的好處最新新聞在前面,不然剛好跟採集頁面相反,最後一頁為最新新聞) 鏈接開始代碼:<td><ahref=" 鏈接結束代碼:target="_blank" 標題開始標記:<strongclass="p24"> 標題結束標記:<tdalign="center">(這裡要把前面的空格一起複制了,不然會出現錯誤) 正文開始標記:<tableborder="0"cellspacing="0"cellpadding="2"align="center"> 正文結束標記:<pid="adv_under_cont"></p> 下頁開始標記:<ahref="./(找到下一頁,把<ahref="./的空格也複製了) 下頁結束標記:">下一頁</a> 請注意下頁開始與結束:找到分頁代碼,找到下一頁的代碼:定義好下一頁開始與結束就OK。這裡多試幾次,因為這裡代碼可選擇範圍小。
推薦閱讀:

TAG:教程 | 分頁 | 問題 | 採集 | 設置 |