批量下載一個論壇中的帖子(2018版)
來自專欄大取4 人贊了文章
今天看吳軍的《見識》裡面提到他在《矽谷來信》中對中國的看好。網上搜了搜應該是這個。
矽谷來信 - 解讀-精英知識眾籌社區 - Powered by Discuz!
然後我就想能不能把它批量下載下來。
先下載一下論壇版塊的頁面。
for k in $( seq 1 13 )do wget http://www.febhub.com/forum-44-${k}.htmldone
下載回來之後發現有鏈接的那一行是類似這樣的:
<a href="thread-7933-1-9.html" onclick="atarget(this)" class="s xst">第136封信丨一號公路之旅</a>
於是 gvim *.html
:argdo g/<a href="thread.*html" onclick="atarget(this)" class="s xst">/y A
然後
:let @+ = @a
或者直接"ap到一個空的文檔中。
替換內容
:%s/ <a href="thread-(d*)-.*html" onclick="atarget(this)" class="s xst">(.{-})</a>/w3m http://www.febhub.com/forum.php?mod=viewthread&action=printable&tid=1 > 2.txt
保存成sh文件。zsh執行之。即可。
另外,08年我批量下載天益馬版的時候,用的是自己寫的一個VB6程序提取URL,然後下載用的迅雷的批量下載。VB6處理字元串真是慢得要死,開始提取URL之後得等半天才能把URL提出來,現在想來真是好蠢233
推薦閱讀:
※Vim 對特定行處理常用方法(三):奇偶行分離(及寄存器入門)
※你有哪些絕妙高效處理文本操作的經歷?
※哪兩個字母不可能連在一起?
※VIM學習筆記 多編碼處理 (Multi-Encodings)