如何批量下載 A 股招股說明書？

12-28

由於需要找一些數據，需要批量地下載招股說明書，但財經網站上不夠全，下載也比較麻煩。求助哪裡可以比較方便地批量下載招股說明書？尤其是2000年之前的招股說明書，很多網站都沒有全文。先謝過各路大神！

今天下午突然有了這個需求，晚上抽一個小時寫了個腳本實現了這個功能，順便分享一下好了。

第一步，想一下平時怎麼下招股書：

大概就是在深交所親兒子巨潮資訊上直接搜把：

第二步，分析網頁結構

簡單分析了一下這個網頁的http request ，發現這個文件里有我們想要的信息：

複製這個文件的下載地址：

大概是這樣的：

http://www.cninfo.com.cn/cninfo-new/fulltextSearch/full?searchkey=
%E4%B8%9C%E6%96%B9%E6%97%B6%E5%B0%9Asdate=edate=isfulltext=false
sortName=nothingsortType=descpageNum=1

下載解析之後是這樣的，其中"adjunctUrl": "finalpage/2016-01-26/1201941720.PDF" 就是我們想要的下載地址了：

第三步，寫python批量下載

然後就easy 了，python request 連續搞起就可以了，最終代碼長這樣：

最後的輸出效果是這樣的。。

沒有時間寫GUI，不過這個腳本沒有用到三方庫，理論上小白可以這麼用：

1。裝個python2.7

2。下載 https://github.com/tsauliu/ipofiles/blob/master/pyscrapy.py

3。在相同文件夾里新建stkcd.csv，輸入自己想要下載的股票代碼

4。雙擊pyscrapy.py，程序會自動下載招股說明書，按規律重命名，並放在output文件夾里

Github地址：tsauliu/ipofiles

ps:這個腳本也可以用來下載各種各樣的公告，比如說年報啊、半年報啊啥的，只要改一下代碼裡面第20行就可以了。

感謝 @Liu Cao 提供的網站，這裡提供一個新思路：

無需編程，無需翻牆，不敲代碼，只要15分鐘！

徹底拯救代碼苦手的小夥伴掌握數據抓取技能

一、工具準備（預計10分鐘）

下面我們正式進入主題，首先需要兩個工具：

谷歌chrome瀏覽器鏈接：谷歌瀏覽器下載-百度軟體中心
Web Scraper插件

可以翻牆的同學通過官方渠道 http://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn
無法翻牆同學通過鏈接 http://chrome-extension-downloader.com/?extension=jnhgnonknehpejjnehehllkliplmbmhn# 打開鏈接（可能要刷新幾次），點擊 Download extension可以下載一個crx文件
或百度網盤鏈接：http://pan.baidu.com/s/1pKUvbyN 密碼：idqg

下載後需要手動安裝插件：【怎麼安裝Chrome插件】安裝Chrome第三方插件_百度經驗

二、開始抓取（預計5分鐘）

神秘代碼：

{"startUrl":"http://www.cninfo.com.cn/cninfo-new/fulltextSearch?code=notautosubmit=keyWord=%E6%8B%9B%E8%82%A1%E8%AF%B4%E6%98%8E%E4%B9%A6","selectors":[{"parentSelectors":["Detail"],"type":"SelectorLink","multiple":false,"id":"Downloadlink","selector":"div.btn-blue a","delay":"500"},{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"List","selector":"ul.ct-line li","delay":""},{"parentSelectors":["List"],"type":"SelectorText","multiple":false,"id":"Title","selector":"a","regex":"","delay":""},{"parentSelectors":["List"],"type":"SelectorText","multiple":false,"id":"Date","selector":"div.t4","regex":"","delay":""},{"parentSelectors":["List"],"type":"SelectorLink","multiple":false,"id":"Detail","selector":"a","delay":""}],"_id":"zhaogu"}

開抓：

點擊Scrape
設置抓取規則（默認即可），點擊Start Scraping ； 啊哈，在彈窗顯示知乎粉絲頁面後，抓取結果就直接出來了，如圖：

3. 快樂地導出數據吧，點擊export data as CSV，即導出為CSV格式

三、下載報告（旋風/迅雷等支持批量下載的軟體）

具體的原理可以移步我在知乎的數據抓取教程主貼：

零基礎如何學爬蟲技術？ - 知乎

百度下載慧博智能策略終端，各種公開資料隨便免費下

原諒我看成了如何批量下載A片………

同花順東方財富都有免費的資料庫軟體，可以下載

wind

請大神指教下，如何自動抓取二級頁面裡面的信息，謝謝

有必要那麼麻煩么直接總二郎神批量導出一下不就可以了么

銳思資料庫。

某寶上有出售上市公司歷年年報、中報和招股書的的網店，問問他們有沒有2000年前招股書，直接下單買吧，真不貴。