如何保存某位知乎用戶的所有答案?
我得再介紹一下從知乎助手上保存的網頁,怎麼轉換成為一個像樣的pdf。是所謂授人以漁。
知乎助手上面所有的用戶回答都在一個頁面上,通過這個頁面看完所有回答顯然是不現實的,一旦你退出,看到哪裡都不知道了。而且很顯然只要關心你所關注的問題就夠了,把一個人所有回答看一遍毫無必要吧?
所以我們的目的就是導出一個帶有書籤、目錄的pdf文件,同時它的排版良好,可讀性高。
下面要秀大法了,大家先鎮定一下。。。
=============================================- 1.把html頁面的文字拷貝到txt裡面去,再拷貝到word裡面去。
- 2.我們要利用好word裡面的樣式,將「提問。。。。。」作為樣式二,回答內容作為正文樣式。
- 3.好了,問題是怎麼捕獲提問這些標題呢?一圖勝千言。
然後你就是在word開頭加入一個目錄,另存為pdf的時候帶上書籤即可。。
達到這樣的效果:劉念的把妹教程還是不錯的,情商入門導論。。。以上方法貌似不能復現,大家小心不要浪費時間。
============================補充葛巾的pdf是epub轉過來的。
序號不是替換出來的。是樣式裡面設置的。
正規做法是利用pandoc轉換html到latex到pdf。
你需要的基礎有python寫爬蟲,html結構分析,python parse這個結構,很多過程還得sed awk手工抽取一些正則表達式,調整latex又是一個大坑,很多溢出啊,overflow,排版理論上是np hard的,你得要一個編輯。
還有圖片大小的控制,理論上都要手工一張張調整的,沒法用程序去做,因為圖片原來是怎麼樣子的你就不知道。
這些都會,並且有排版美感的程序員太少了吧。所以位元組社要收錢呀。
---------------update:
改到onedrive上去,哪怕。。。。。。你需要科學上網:)
Microsoft OneDrive
update:
對office 2013做了一次壓力測試,生成了一個巨型的(2000+頁)word文檔,生成pdf目錄還是可用的。素材嘛,就是鹽系列的大合集,O(∩_∩)O哈哈~2018.01.02 更新:
最後一次更新到現在,知乎網站變動較大,工具沒有繼續維護,主要因為自己不再有批量下載的需求,所以工具已經失效了,請移步其它答主的回答,謝謝各位支持~
2015-11-30 更新 V 2_21
支持鏈接/文字/文件拖動,加入新功能(截圖在最下方)。
-----《知乎回答收集器》簡介-----
下載鏈接:pan.baidu.com/s/1ntyBqTr(百度網盤地址,如果失效還請聯繫我)
可以按照需求將指定的用戶、收藏夾、話題精選下的回答連帶圖片保存到本地,為了方便大家在Kindle、iPad等離線閱讀設備上查看、閱讀。
目前可以做到:
- 保存文字和圖片到本地,生成HTML格式文件,可以方便地轉換成其他格式;
- 下載圖片到本地,避免出現圖片失效等問題;
- 可以按照贊同排序,遴選精華中的精華;
- 保留所有權,除非該作者匿名或設置了隱私保護;
- ...
目前做不到:
- 無法收集設置了隱私保護的用戶的回答;
- 無法收集私人收藏夾的回答。
如果有新的需要,可以與我私信,我會酌情改進。
我所能了解到的大號也不是很多,如果有要推薦的,可以評論或私信告知。
若您不想讓自己的回答出現在這個文件夾里,還請私信或評論告知,我會儘快刪除;
若這種方式違反了版權規定,煩請告知,我會儘快取消這個分享。
-----關於導出為doc(x)、mobi、epub格式時的目錄問題----
根據知友 @freestyle (再次感謝)所說:
瀏覽器打開抓取生成的html後是包含格式與圖片的。
全選複製到word,點擊頁面選項卡里的目錄,選擇自定義目錄,設置顯示級別為1,字體什麼的要改得話點擊修改按鈕設置字體,確定即可生成帶超鏈接的目錄,docx轉epub/mobi後目錄同樣有效~~O(∩_∩)O(此時目錄只有問題,如果要加上答題者名字的話搜索格式標題二替換為標題一)
-----關於導出為PDF-----
我嘗試批量導出了一下,不過還是得手動操作,具體流程如下:
- 首先,你電腦上要有Word和Foxit福昕閱讀器 ;
- 用Word打開導出的這個Html文件,字型大小調為「四號」,否則過大或過小看起來都會不方便,字體建議用華文細黑,又清晰又好看,絕對神作!
- 「列印」,印表機選擇Foxit PDF;
- 頁面設置為「信紙C6」,因為Kindle 4,touch,paperwhite的屏幕都是166*114mm,與信紙C6最接近;邊距改為「窄」;
- 點列印,選擇保存路徑;
- 複製到Kindle上。
這麼做有個好處,圖片都可以保存下來,而且在Kindle上打開速度快到飛起~
-----關於源代碼-----
編程語言:C# (這是一個偉大的語言,勿噴……)
雖然這個收集器的代碼並不值錢,不過我也不想無條件開源。
如果想添加一些功能,改進一下,還請把郵箱地址私信給我,最好能在改進之後發回給我,我也可以學習一下。
- 知乎贊同數前一百用戶地址: 359345-27061-----2014.5.6
- 2014.5.7更新專欄地址 來源知乎都有哪些值得推薦的專欄?