能否用爬蟲抓取論文參考文獻?

用爬蟲抓取某一話題的參考文獻及論文


能。

理論上,普通人能訪問到的網頁,爬蟲也都能抓取。所謂的爬蟲抓取,也是類似於普通人瀏覽網頁。與普通人上網方式不同,爬蟲是一段自動執行的程序,能把訪問到的網頁記錄保存下來。

指定好種子(起始連接)、選擇合適抓取策略(關鍵詞搜索的結果列表、種子頁面的鏈接等)以及明確好提取的內容(抽取網頁中的正文、圖片等),就能搭建出滿足自己需求的爬蟲。


能。


居然被邀請了。只要瀏覽器能獲取到的,理論上爬蟲就能獲取到。只是要根據網站實際情況選擇不同方式。以python為例:如果網頁簡單,基本沒有js,直接上requests這類庫模擬http請求抓數據;如果js比較複雜難以模擬,對速度要求不高,可以考慮selenium這種模擬瀏覽器的方式;如果js複雜而又要求速度。。。理論上還是得分析js模擬發包,而然我不會


可以。無論使用java還是python,最重要的是你需要明確自己的需求,爬什麼資料庫,獲取哪些信息。大體都是發送請求,獲取頁面,解析頁面。涉及到登陸、js載入、掛代理之類的問題,查查資料也很好解決。


Zotero好像就是這樣爬下來的。。。


只要是網頁上呈現出來的數據,都是可以爬的~~
只有不努力的演算法工程師,沒有爬不到的數據~~


當然是可以的,如果有一點簡單java知識,然後在看一點httpclient或者jsonp等簡單的文檔信息,一個簡單的論文就到手了,具體需要什麼就需要你自己根據需求來解析了


爬蟲工具就可以 不過爬的是網頁上顯示的數據
像中國知網的論文 頁面是看不到的只能下載 這種也可以嗎?不清楚


理論上只要是網頁上顯示的內容爬蟲都可以採集下來,但是一般圖片裡面的內容是無法單獨採集下來的,只能把圖片下載下來


可以,google學術,百度學術,都是這麼乾的。


理論上可以,能拿到文獻的路徑就行,但似乎沒有意義。。
爬蟲適合不加篩選地下大批文件,而參考文獻得自己挑吧?一股腦兒的全下下來不一定是自己需要的啊


學校圖書館說不讓,,


首先要不被資料庫neng死,隔壁蛤交據說有人爬資料庫導致學校被ban


網上一切能看到的東西都可以爬下來。
至於怎麼爬,Python,爬蟲框架,JS,計算機網路學好了再說吧。


推薦閱讀:

關於python模擬登錄知乎驗證碼的問題?
如何爬取摩拜單車位置信息?
爬蟲怎麼解決封IP的問題?
爬蟲用哪個好?
python 中文url 編碼如何轉換回中文?

TAG:Python | 爬蟲計算機網路 | Java爬蟲 |