有沒有比sci-hub更好用的論文下載平台?

有沒有比sci-hub更好用的論文下載平台?

來自專欄 喵咪論文

有,我做的

喵咪論文 - 簡單自由的論文下載平台?

lunwen.im


在國內,我的論文下載體驗很糟糕。

sci-hub非常棒,但是最近sci-hub越來越不好使了,不僅域名變來變去,訪問速度是越來越慢了。

我只能回到使用學校購買的資料庫,真的是非常差的體驗。

累覺不愛的圖書館論文下載流程

我要先去學校的官網,點進圖書館主頁,找到專門的資料庫鏈接入口(畢竟有時候直接從域名訪問還不行,還有我真記不住那些網站的域名)。等論文資料庫的loading小圓圈轉啊轉啊轉完,顯示是機構登錄後,我才算開始了第一步:複製論文標題進去,用食指大力地敲擊滑鼠---搜索」---彷彿這樣能更快一些。

我還太naive了,搜索過程沒有哪次不是慢慢慢慢,騰騰的,好像小雞艱難地啄啄啄啄破了殼才能出來。耐心,在畫蛇添足似得地點擊「獲取原文」時,就被消磨殆盡了,最後我最痛恨的一步出場了---「選擇文件保存位置」(有時我只想泛讀,卻不得不要保存在我乾乾淨淨整整齊齊的電腦里。我不得不花上半分鐘在文件目錄切來切去,絞盡腦汁琢磨著放在哪個文件夾最合適),等到論文下載好後,我才算是可以讀論文了。

最可怕的是,許多論文默認文件名還是亂七八糟的,一旦我疏忽設置文件名,等下次我想找也找不到時,只能他喵的再來一遍了....

這篇論文,有時是一篇我正在閱讀論文的重要前置引文,有時是一篇標題和摘要讀起來超有料的文章,有時甚至是和我的研究內容有嚴重撞車嫌疑的,我恨不得這篇論文能夠以光速在我面前炸開。然而,理想很豐滿,現實很骨感,我還是得重複在剛吐槽的檢索流程,找不到的話就只能在谷歌學術、sci-hub、oalib、百度等一個接一個嘗試了...

想一想,如果不在學校,如果論文不在學校購買資料庫內,如果 EI 等索引網站速度還那麼慢,如果無法訪問谷歌學術 / sci-hub(sci-hub 的可用域名越來越少,而且在國內訪問越來越難),如果遇到以上每一個如果,我也只能對著電腦無助的發獃,從厚著臉皮讓在校的學弟學妹幫忙下載,到四處尋找谷歌學術鏡像,最後絕望的放棄。

我相信的我的體驗完全不是孤例,我身邊的小夥伴和我有一毛一樣的煩惱。

有一天我甚至意識到,糟糕的論文下載體驗,已經讓我產生論文下載很麻煩的潛意識,進而影響我探索新鮮論文的動力。許多次,因為一篇論文一下子沒找到,我放棄了,然後安慰自己:這肯定是篇大水文,不然應該馬上就能找到。直到某次我得意鳴鳴地在周會報告我的學術idea時,導師批評我「 XXX 已經把這個思路研究透了,你怎麼還在做這個」,那個時候,我很想變成空氣..

為什麼互聯網都這麼發達了,我們要忍受這樣的體驗呢?

作為腦汁就喜茶那麼一杯的科研萌新,下載論文的體驗煩透我了,我多麼希望找論文是一個及其簡單、不需要思考的事情,能把所有的精力全部留給論文的理解。

我總結下,一個愉快的論文獲取站,只需要認真的做好三步:

理解的論文閱讀體驗

  1. 輸入標題或者 doi
  2. 回車
  3. 立即在線查看論文,也能下載到本地

和四個特性:

  1. 域名好記,可以直接訪問,像我就傻乎乎地記不住長長的域名,還要在百度搜索一下
  2. 訪問速度快,不用各種複雜的認證
  3. 乾脆,能夠直接在線看論文
  4. 覆蓋論文比較全,速度快

sci-hub近乎完美符合上面的要求,唯一就是最近真的不太平,不僅域名變來變去,速度也越來越慢了。

到底有沒有一個替代網站,不僅能覆蓋 sci-hub 的功能,也能實現簡單、好記、穩定和速度呢?

沒找到。

我決定自己動手!畢竟計算機是我的本行,我和實驗室的小夥伴花了2周時間,採用了 vue + vue-router + axios + selenium + flask + mongo 等一系列技術棧,基本實現了這樣的目標。

技術棧

大致分享一下實現機制:前端、爬蟲端和伺服器端都進行分離,之間採用 RESTful 架構通信。前端利用 webpack 編譯打包靜態化,用戶訪問請求服務端獲取數據。伺服器端採用 nginx + gunicorn + flask + mongo ,可能不是最理想的搭配,但是作為萌新來說用起來順手。爬蟲架設在實驗室的閑置電腦上,selenium+headless chrome進行動態數據的爬取,最後把數據post到線上伺服器。selenium + headleass chrome 好處的偽造性比較好,不容易被禁,缺點是資源佔用比較高,在扒了百萬數據後,實驗室機器的chrome就累死了,怎麼樣也啟動不開了,重裝也裝不好,很無奈。我針對sci-hub嗅探到了一個可用域名池,動態測試域名的連通性,還意外的挖掘到很多未公開的可用域名,速度非常快。

通過定製化的爬蟲規則,我的服務已經爬取了足夠的論文原鏈。到現在為止,覆蓋了論文數據源不僅僅大名鼎鼎的sci-hub, 一共有:

  • sci-hub
  • oalib
  • findarticles
  • intechopen
  • arxiv

聚合可檢索的論文總量超過6千萬級。其中重點覆蓋了出版機構有:

  • Elsevier
  • Wiley-Blackwell
  • Springer Nature
  • American Chemical Society
  • Cambridge University Press

雖然花了兩周做了一件「以前又不是下不到論文」的事情,但是我還挺有成就感。這份成就感來源於,我們實驗室都集體用上了這個工具(對,他們平時甩都不甩我的,現在用我開發的軟體,有種實驗室稱王稱霸的感覺)。甚至,越來越多其他組的同學特地湊過來問我,怎麼訪問這個的論文服務啊?

每次分享都需要手動發送內網 IP,弄得我應接不暇。獨樂樂不如眾樂樂,我乾脆自費購買了域名和伺服器,把這個服務免費開放出來,希望能改善所有人閱讀論文的體驗(很大方有木有)。

網站截圖

鏈接在此:

喵咪論文 - 簡單自由的論文下載平台?

lunwen.im

域名非常好記,就是論文的雙拼,由於是新網址,百度應該還沒有收錄,所以大家可以最好記住域名直接訪問。網站的中文名字是「喵咪論文」,至於為什麼這麼叫,包括其他彩蛋,可以參見喵咪論文FAQ。

簡單介紹一下怎麼使用的吧,非常方便:

在搜索框輸入你任何你想看的論文,比如前不久大熱的 Nature 文章< Mastering the game of Go without human knowledge >,中文譯名<人工智慧從0-1自學打敗阿法狗 >

輸入全文標題

然後回車(當然點擊那個搜索圖標也可以),一小會兒,論文就來了,直接默認顯示全文!

直接查看論文

左邊是類似的論文,都可以點擊查看。

PS. 目前論文標題的搜索還不是特彆強大,建議最好輸入全文標題,而且更精準的方式的是輸入論文的 doi 。比如 < Mastering the game of Go without human knowledge > 的 doi 是< 10.1038/nature24270 >

輸入doi

直接查看論文

這樣的論文閱讀體驗會不會變得real簡單?

綜上,我實現了一個real簡單的論文獲取工具,實現了對 oalib、findarticles、intechopen 特別是 sci-hub 的全覆蓋,如果你是以上資料庫的用戶,你可以直接使用 喵咪論文 lunwen.im 。

當然,學術論文獲取的可選項還有谷歌學術、百度學術等強大的工具,希望能成為你的一個補充。

另外,我深知我和我的朋友僅僅做了非常微不足道的工作,實現了一個很多大佬可能幾天就能搞定的技術,即使爬蟲的規則很麻煩,多源數據還需要去重、清洗和合併,即使這是我通宵幾個晚的成果,但更偉大的是這些論文開放資料庫,他們一直在推廣學術開放的一線,而我只是將他們的服務聚合起來,更方便國人使用罷了。

最後真誠希望對大家有所幫助,這是一個聚合開放論文資料庫的網站,定位是簡單自由的論文下載平台。由於移動端適配不佳,手機看到這篇文章的朋友可以點贊收藏起來,在電腦上訪問體驗。網站還比較粗糙,而且中文論文還在建設中,有任何問題和Bug都可以私我。

祝學術順利,Enjoy。

https://lunwen.im


推薦閱讀:

我想把這三個神器推薦給寫論文的你!
●關於職稱論文發表時間的要求(部分)
選對期刊,讓論文發表更容易!
寫 SCI論文別瞎用中英文標點!丟人還丟分
臨床醫生如何處理好臨床與科研的關係?

TAG:論文 | 學術論文 | 科學引文索引SCI |