如何保存某位知乎用戶的所有答案?

我得再介紹一下從知乎助手上保存的網頁,怎麼轉換成為一個像樣的pdf。是所謂授人以漁。

知乎助手上面所有的用戶回答都在一個頁面上,通過這個頁面看完所有回答顯然是不現實的,一旦你退出,看到哪裡都不知道了。而且很顯然只要關心你所關注的問題就夠了,把一個人所有回答看一遍毫無必要吧?

所以我們的目的就是導出一個帶有書籤、目錄的pdf文件,同時它的排版良好,可讀性高。

下面要秀大法了,大家先鎮定一下。。。

=============================================

  • 1.把html頁面的文字拷貝到txt裡面去,再拷貝到word裡面去。

  • 2.我們要利用好word裡面的樣式,將「提問。。。。。」作為樣式二,回答內容作為正文樣式。

  • 3.好了,問題是怎麼捕獲提問這些標題呢?一圖勝千言。

然後你就是在word開頭加入一個目錄,另存為pdf的時候帶上書籤即可。。

達到這樣的效果:

劉念的把妹教程還是不錯的,情商入門導論。。。

以上方法貌似不能復現,大家小心不要浪費時間。

============================

補充

葛巾的pdf是epub轉過來的。

序號不是替換出來的。是樣式裡面設置的。

正規做法是利用pandoc轉換html到latex到pdf。

你需要的基礎有python寫爬蟲,html結構分析,python parse這個結構,很多過程還得sed awk手工抽取一些正則表達式,調整latex又是一個大坑,很多溢出啊,overflow,排版理論上是np hard的,你得要一個編輯。

還有圖片大小的控制,理論上都要手工一張張調整的,沒法用程序去做,因為圖片原來是怎麼樣子的你就不知道。

這些都會,並且有排版美感的程序員太少了吧。所以位元組社要收錢呀。

---------------

update:

改到onedrive上去,哪怕。。。。。。你需要科學上網:

Microsoft OneDrive

update:

對office 2013做了一次壓力測試,生成了一個巨型的(2000+頁)word文檔,生成pdf目錄還是可用的。

素材嘛,就是鹽系列的大合集,O(∩_∩)O哈哈~


2018.01.02 更新:

最後一次更新到現在,知乎網站變動較大,工具沒有繼續維護,主要因為自己不再有批量下載的需求,所以工具已經失效了,請移步其它答主的回答,謝謝各位支持~

2015-11-30 更新 V 2_21

支持鏈接/文字/文件拖動,加入新功能(截圖在最下方)。

-----《知乎回答收集器》簡介-----

下載鏈接:pan.baidu.com/s/1ntyBqTr(百度網盤地址,如果失效還請聯繫我)

可以按照需求將指定的用戶、收藏夾、話題精選下的回答連帶圖片保存到本地,為了方便大家在Kindle、iPad等離線閱讀設備上查看、閱讀。

目前可以做到:

  1. 保存文字和圖片到本地,生成HTML格式文件,可以方便地轉換成其他格式;
  2. 下載圖片到本地,避免出現圖片失效等問題;
  3. 可以按照贊同排序,遴選精華中的精華;
  4. 保留所有權,除非該作者匿名或設置了隱私保護;
  5. ...

目前做不到:

  1. 無法收集設置了隱私保護的用戶的回答;
  2. 無法收集私人收藏夾的回答。

如果有新的需要,可以與我私信,我會酌情改進。

我所能了解到的大號也不是很多,如果有要推薦的,可以評論或私信告知。

若您不想讓自己的回答出現在這個文件夾里,還請私信或評論告知,我會儘快刪除;

若這種方式違反了版權規定,煩請告知,我會儘快取消這個分享。

-----關於導出為doc(x)、mobi、epub格式時的目錄問題----

根據知友 @freestyle (再次感謝)所說:

瀏覽器打開抓取生成的html後是包含格式與圖片的。

全選複製到word,點擊頁面選項卡里的目錄,選擇自定義目錄,設置顯示級別為1,字體什麼的要改得話點擊修改按鈕設置字體,確定即可生成帶超鏈接的目錄,docx轉epub/mobi後目錄同樣有效~~O(∩_∩)O

(此時目錄只有問題,如果要加上答題者名字的話搜索格式標題二替換為標題一)

-----關於導出為PDF-----

我嘗試批量導出了一下,不過還是得手動操作,具體流程如下:

  1. 首先,你電腦上要有Word和Foxit福昕閱讀器 ;
  2. 用Word打開導出的這個Html文件,字型大小調為「四號」,否則過大或過小看起來都會不方便,字體建議用華文細黑,又清晰又好看,絕對神作!
  3. 「列印」,印表機選擇Foxit PDF
  4. 頁面設置為「信紙C6」,因為Kindle 4,touch,paperwhite的屏幕都是166*114mm,與信紙C6最接近;邊距改為「窄」;
  5. 點列印,選擇保存路徑;
  6. 複製到Kindle上。

這麼做有個好處,圖片都可以保存下來,而且在Kindle上打開速度快到飛起~

-----關於源代碼-----

編程語言:C# (這是一個偉大的語言,勿噴……)

雖然這個收集器的代碼並不值錢,不過我也不想無條件開源。

如果想添加一些功能,改進一下,還請把郵箱地址私信給我,最好能在改進之後發回給我,我也可以學習一下。


  1. 知乎贊同數前一百用戶地址: 359345-27061-----2014.5.6

  2. 2014.5.7更新專欄地址 來源知乎都有哪些值得推薦的專欄?
分頁阅读: 1 2 3 4 5 6 7 8