能否用爬蟲抓取論文參考文獻?
12-28
用爬蟲抓取某一話題的參考文獻及論文
能。
理論上,普通人能訪問到的網頁,爬蟲也都能抓取。所謂的爬蟲抓取,也是類似於普通人瀏覽網頁。與普通人上網方式不同,爬蟲是一段自動執行的程序,能把訪問到的網頁記錄保存下來。
指定好種子(起始連接)、選擇合適抓取策略(關鍵詞搜索的結果列表、種子頁面的鏈接等)以及明確好提取的內容(抽取網頁中的正文、圖片等),就能搭建出滿足自己需求的爬蟲。
能。
居然被邀請了。只要瀏覽器能獲取到的,理論上爬蟲就能獲取到。只是要根據網站實際情況選擇不同方式。以python為例:如果網頁簡單,基本沒有js,直接上requests這類庫模擬http請求抓數據;如果js比較複雜難以模擬,對速度要求不高,可以考慮selenium這種模擬瀏覽器的方式;如果js複雜而又要求速度。。。理論上還是得分析js模擬發包,而然我不會
可以。無論使用java還是python,最重要的是你需要明確自己的需求,爬什麼資料庫,獲取哪些信息。大體都是發送請求,獲取頁面,解析頁面。涉及到登陸、js載入、掛代理之類的問題,查查資料也很好解決。
Zotero好像就是這樣爬下來的。。。
只要是網頁上呈現出來的數據,都是可以爬的~~
只有不努力的演算法工程師,沒有爬不到的數據~~
當然是可以的,如果有一點簡單java知識,然後在看一點httpclient或者jsonp等簡單的文檔信息,一個簡單的論文就到手了,具體需要什麼就需要你自己根據需求來解析了
爬蟲工具就可以 不過爬的是網頁上顯示的數據
像中國知網的論文 頁面是看不到的只能下載 這種也可以嗎?不清楚
理論上只要是網頁上顯示的內容爬蟲都可以採集下來,但是一般圖片裡面的內容是無法單獨採集下來的,只能把圖片下載下來
可以,google學術,百度學術,都是這麼乾的。
理論上可以,能拿到文獻的路徑就行,但似乎沒有意義。。
爬蟲適合不加篩選地下大批文件,而參考文獻得自己挑吧?一股腦兒的全下下來不一定是自己需要的啊
學校圖書館說不讓,,
首先要不被資料庫neng死,隔壁蛤交據說有人爬資料庫導致學校被ban
網上一切能看到的東西都可以爬下來。
至於怎麼爬,Python,爬蟲框架,JS,計算機網路學好了再說吧。
推薦閱讀:
※關於python模擬登錄知乎驗證碼的問題?
※如何爬取摩拜單車位置信息?
※爬蟲怎麼解決封IP的問題?
※爬蟲用哪個好?
※python 中文url 編碼如何轉換回中文?