移動應用「今日頭條」是如何抓取新聞的?
01-28
很好奇如何快速抓取那麼多的新聞。是自動演算法還是編輯團隊?具體如何工作?
1.app是個瀏覽器
2.搜索引擎抓內容3.系統(演算法)根據用戶的喜愛個性化推薦內容
如果是以上原理,那這裡面的法律問題就有意思了。一般設計通用的爬取規則和網頁正文內容定位與解析方法以後,通過人工添加新聞站點就可以監控這些站點最新發布的內容了,站點數量多以後就在低層增加一套分散式的框架,每個節點抓取相應的網站,同時使用統一的查重演算法和資料庫就能達到大並發量抓取的目的了~大概框架就是這樣。
@ZZB 說得已經很清楚了,用採集,自己寫採集器或者用現有的採集器都行,
新聞來源很多,各大新聞網站的新聞列表到新聞詳細頁都能採集,而且匹配能很精準。
恩,我做過,平均就算慢點,單人新手一天8小時都能寫上20個網站頁面的列表+詳細,
所以其實這事很簡單。
基本上不大需要編輯團隊,輪班制,就能完成日常運營。
內容來源不是頭條號嗎?
都是些 陳年舊事 總是慢半拍
今日頭條頭條號文章採集爬蟲(多頭條號)
寫爬蟲,用機器去抓網站的html,不少新聞網站都是寫得比較規範,因為要適應seo,結構清晰。
然後針對性的分析一下具體的標籤,例如content title tag這些就能歸檔入今日頭條的庫了。
國內甚多的媒體網站用的是方正、華光等少數幾家cms,例如著名的trs等,做了一家報紙的爬蟲適配後,其他很容易找到相近結構的基本上不用怎麼改就能繼續爬了沒有用過這款應用,但具體技術實現非常簡單,如果會寫採集的話,有很多新聞源
1、百度新聞2、四大門戶3、現在的360新聞也不錯簡單就是採集後直接放出來,要更好的話就是先採集後由人工篩選、去重、排序、匯總、重擬標題、出專題等,再更好一點的做法就是……算了,不說了,8仙過海各有申通?神通!哥幫你到這了~
只需要盯住幾個大的渠道來源就可以了話說,每天的量沒那麼大,也就幾萬,十幾萬的條目
註冊了頭條號以後,網站是不是就對今日頭條開放了許可權就可以隨意抓取網站的內容 ,那利用頭條號發布的文章和今日頭條自動抓取的文章有什麼不同了?
個人認為採集是一種手段,畢竟是機器或者軟體演算法在採集文章,還是會有後台人員審核文章,不然什麼垃圾文章都往頭條上發那還了得?所以應該是採集+審核,或者是和新聞門戶網站本就有合作,幫他們的新聞上頭條。這就不得而知了,只是我的猜想。。。
推薦閱讀:
※現在做微博和今日頭條視頻自媒體還來得及嗎?還有機會翻身嗎?
※今日頭條文章編輯如何設置文字圖片居中?
※今日頭條審核後的結果「內容不適合收錄」到底是什麼標準?