標籤:

批量下載一個論壇中的帖子(2018版)

批量下載一個論壇中的帖子(2018版)

來自專欄大取4 人贊了文章

今天看吳軍的《見識》裡面提到他在《矽谷來信》中對中國的看好。網上搜了搜應該是這個。

矽谷來信 - 解讀-精英知識眾籌社區 - Powered by Discuz!

然後我就想能不能把它批量下載下來。

先下載一下論壇版塊的頁面。

for k in $( seq 1 13 )do wget http://www.febhub.com/forum-44-${k}.htmldone

下載回來之後發現有鏈接的那一行是類似這樣的:

<a href="thread-7933-1-9.html" onclick="atarget(this)" class="s xst">第136封信丨一號公路之旅</a>

於是 gvim *.html

:argdo g/<a href="thread.*html" onclick="atarget(this)" class="s xst">/y A

然後

:let @+ = @a

或者直接"ap到一個空的文檔中。

替換內容

:%s/ <a href="thread-(d*)-.*html" onclick="atarget(this)" class="s xst">(.{-})</a>/w3m http://www.febhub.com/forum.php?mod=viewthread&action=printable&tid=1 > 2.txt

保存成sh文件。zsh執行之。即可。

另外,08年我批量下載天益馬版的時候,用的是自己寫的一個VB6程序提取URL,然後下載用的迅雷的批量下載。VB6處理字元串真是慢得要死,開始提取URL之後得等半天才能把URL提出來,現在想來真是好蠢233

推薦閱讀:

Vim 對特定行處理常用方法(三):奇偶行分離(及寄存器入門)
你有哪些絕妙高效處理文本操作的經歷?
哪兩個字母不可能連在一起?
VIM學習筆記 多編碼處理 (Multi-Encodings)

TAG:在線論壇 | Vim |