能否用爬蟲抓取論文參考文獻？

12-28

用爬蟲抓取某一話題的參考文獻及論文

能。

理論上，普通人能訪問到的網頁，爬蟲也都能抓取。所謂的爬蟲抓取，也是類似於普通人瀏覽網頁。與普通人上網方式不同，爬蟲是一段自動執行的程序，能把訪問到的網頁記錄保存下來。

指定好種子（起始連接）、選擇合適抓取策略（關鍵詞搜索的結果列表、種子頁面的鏈接等）以及明確好提取的內容（抽取網頁中的正文、圖片等），就能搭建出滿足自己需求的爬蟲。

能。

居然被邀請了。只要瀏覽器能獲取到的，理論上爬蟲就能獲取到。只是要根據網站實際情況選擇不同方式。以python為例：如果網頁簡單，基本沒有js，直接上requests這類庫模擬http請求抓數據；如果js比較複雜難以模擬，對速度要求不高，可以考慮selenium這種模擬瀏覽器的方式；如果js複雜而又要求速度。。。理論上還是得分析js模擬發包，而然我不會

可以。無論使用java還是python，最重要的是你需要明確自己的需求，爬什麼資料庫，獲取哪些信息。大體都是發送請求，獲取頁面，解析頁面。涉及到登陸、js載入、掛代理之類的問題，查查資料也很好解決。

Zotero好像就是這樣爬下來的。。。

只要是網頁上呈現出來的數據，都是可以爬的~~
只有不努力的演算法工程師，沒有爬不到的數據~~

當然是可以的，如果有一點簡單java知識，然後在看一點httpclient或者jsonp等簡單的文檔信息，一個簡單的論文就到手了，具體需要什麼就需要你自己根據需求來解析了

爬蟲工具就可以不過爬的是網頁上顯示的數據
像中國知網的論文頁面是看不到的只能下載這種也可以嗎？不清楚

理論上只要是網頁上顯示的內容爬蟲都可以採集下來，但是一般圖片裡面的內容是無法單獨採集下來的，只能把圖片下載下來

可以，google學術，百度學術，都是這麼乾的。

理論上可以，能拿到文獻的路徑就行，但似乎沒有意義。。
爬蟲適合不加篩選地下大批文件，而參考文獻得自己挑吧？一股腦兒的全下下來不一定是自己需要的啊

學校圖書館說不讓，，

首先要不被資料庫neng死，隔壁蛤交據說有人爬資料庫導致學校被ban

網上一切能看到的東西都可以爬下來。
至於怎麼爬，Python，爬蟲框架，JS，計算機網路學好了再說吧。