他們揉碎了5000本書籍的數據，曝光了暢銷書的成功套路

09-04

來自專欄 DT財經4 人贊了文章

文/若木、團支書

平時的你是否會通過暢銷書榜單挑選圖書呢？或許書籍暢銷不能代表經典，但在某一時期受到大眾歡迎，並且銷量出色的書籍，總是會有它成功的理由。

我們一起來看看來自斯坦福的數據俠，如何揭開暢銷書密碼~

本文轉自公眾號數據冰山（ID：shujubingshan）

我們經常用圖表展示什麼車好賣，什麼飯好吃。當然，並沒有把A6和LS剁碎了對比鋼材、鋁材、玻璃和橡膠的比例，也沒有把黃燜雞和沙縣小吃熬成糊化驗一下化學成分。

可是，斯坦福出來的一男一女用了5年的時間把最近30年的5000本書扒光了揉碎了讓機器幫忙看，就為了暴露小說暢銷的秘訣。他倆把發現總結成2016年出版的《暢銷書密碼》。

這本書要回答這個問題：暢銷書到底有沒有套路？

答案是：有。那麼：

誰敢說有？

有什麼套路？

套路怎麼識破的？

誰敢說有？

寫書的兩位是來自斯坦福和蘋果的自然語言處理專家。

男的叫Matthew

Jockers，內布拉斯加大學林肯分校英語系副教授，蒙大拿人，跑馬能進4，跑超馬能完成，在科羅拉多州攀過岩，在灣區打過英式橄欖球。此人2009年在斯坦福教書時和同事共同創建了斯坦福文學實驗室，致力於將計算機評價用於文學研究。他的學術專著包括《宏觀分析：數字方法和文學史》和《R法文本分析》。他還在蘋果公司的iBooks做過科研。

女的叫Jodie

Archer，英格蘭八零後，劍橋英語系本碩，斯坦福英語系博士，曾做過企鵝出版社編輯，蘋果公司iBooks的科研和主管。2016年在圖書經紀人的鼓勵下把她跟Matt做的博士論文成果寫成了《暢銷書密碼》。她當時的博士論文是：《解讀暢銷書：2萬部小說的分析》。

這兩位寫這本書出了名，現在合夥搞一個諮詢公司叫Archer

Jockers，專門幫助積極上進的作家診斷改進作品，力爭暢銷。他們對於單本小說、系列小說、和小有成就作家的諮詢服務分別收費$349，$829和$2799。畢竟是蘋果出來的人，三級定價剛好能買iPhone

SE，iPad Pro，和MacBook Pro。

能在畢業3年之內把論文變現，這個事迹值得在讀博士生們參考。

之所以他倆敢說暢銷書有套路，是因為他們的機器經過訓練能猜出一本書是否暢銷，準確率能達到80%。所以說機器經過訓練總結出來的那些文本特徵是套路，即暢銷書密碼。

有哪些套路？

在人的指導下，機器從主題、情節、文風和人物四個角度博覽群書，發現暢銷書跟非暢銷書相比有一些顯著的差異。這裡主要分享一下主題和情節。

首先，主題要有重點、有衝突、接地氣。

跟非暢銷書琳琅滿目紛繁複雜的主題組合相比，暢銷書按篇幅排序有一個鮮明的第一主題，並把全書篇幅的30%集中在第一第二主題上，第一和第二主題之間有潛在衝突，同時主題還不能太脫離現實生活。

按主題份量累積到40%篇幅的時候，暢銷書平均才4個重點主題，而非暢銷書平均達到6個主題。體會一下，主題太多太平均有沒有眼暈的感覺？

關於對比和衝突，下面的一二主題組合哪個更賣座？

家庭和醫院

性愛和園藝

家庭和醫院更好。家庭意味著祥和，醫院意味著傷病，滿滿的潛在衝突。而那些風馬牛不相及或一順邊無衝突的組合不賣座。

作者發現，有一個萬金油主題，雖然賣座的和不賣座的書都寫，但是賣座的書這一主題的份量突出的重，因此這個主題的比重在猜暢銷的演算法中貢獻很大。這個主題就是那種看似隨意而又感人的「人與人的親近」。這種親近不是熱戀的瘋狂，也不是老師學生僱主員工那種公事公辦，而是那種平凡細節中的親密、默契、和紐帶。比如跟媽媽去購物、跟爸爸去釣魚、跟新戀人一起做飯等等。講故事就像談戀愛，不能始終冰涼也不能幹柴烈火，而要小火慢燉。

另外，特別離奇的主題不容易賣座。太空船、獨角獸和女巫的風險都比較大。為了讓廣大群眾有代入感，主題要有現實基礎。故事背景在小鎮在都市均可，具體哪個國家哪個州也隨便，但別動不動就去叢林、沙漠、深海、莊園。

如果要找一個賣座不賣座主題不完全清單，賣座的包括：婚姻、死亡、稅收、黑科技、葬禮、槍支、醫生、職場、學校、總統、報紙、孩子、母親、和媒體。不賣座的包括：性、毒品、搖滾、引誘、和肉體描寫。

書中拿《家庭規則》這本暢銷書的主題配比舉例，一二主題佔33%，孩子和犯罪有對比衝突，環境設置在法庭、家庭接地氣，「親近」在置頂主題中。

（圖片說明：基於書中數據用文圖製作；圖片來源：http://wentu.io）

其次，情節線要有起伏、有節奏。

古今中外經典故事，小到龜兔賽跑，大到赤壁之戰，大都可以簡化成三幕式結構：鋪墊、衝突、結局。

（圖片說明：三幕式結構；圖片來源：維基百科）

但是分析暢銷書，這個模型過於簡化。因此，Jodie和Matt把暢銷書們掃了一遍，用頁數百分比進度做橫軸，情感的積極消極做縱軸，結果各種情節被歸納成七大麴線。簡單說吧：

上台階型：常見於喜劇
下台階型：常見於悲劇
橫N型：常見於「走向成熟」
橫S型：常見於「重生」
W型：常見於「探險歸來」
M型：常見於「求之不得」
U型：常見於「過關打怪」

（圖片說明：上台階；圖片來源：wattpad）

（圖片說明：下台階；圖片來源：wattpad）

（圖片說明：橫N；圖片來源：wattpad）

（圖片說明：橫S；圖片來源：wattpad）

（圖片說明：W；圖片來源：wattpad）

（圖片說明：M；圖片來源：wattpad）

（圖片說明：U；圖片來源：wattpad）

理論上第七種U型「過大坑」應該有個「翻大山」的鏡像曲線，可惜，翻一座大山然後立刻走低的故事沒有在暢銷書中出現。

雖然這七種都在暢銷書中出現過，但作者認為美國讀者最愛看的是增強版的W，就是W中間的頭部兩側長出兩個凸起的肩膀。最突出的例子就是2011年出版的暢銷性愛浪漫小說《五十度灰》，紅得發紫被好萊塢拍成電影。抬一下杠，不是說了性主題從概率上講不賣座嗎？這裡作者辯解說：此書主題其實是偽裝在性中的「人與人的親近」，另外情節曲線近乎完美地吻合美國讀者口味。

有一個驗證：2003年出版同樣被拍成電影的暢銷書《達芬奇密碼》的情節曲線幾乎和《五十度灰》一模一樣。

（圖片說明：《達芬奇密碼》和《五十度灰》的情節線；圖片來源：wattpad）

這個增強版W的特點是在全書尺度上起伏均勻對稱，節奏感強。

關於文風，作者首先確認文風就像一個人的指紋，是可以識別的。比如，2013年，一個名不見經傳的作者Robert Galbraith出了一部新小說《布穀之鳴》，結果通過文風識別發現這個Robert其實就是《哈利波特》的作者J. K. Rowling試圖隱身用的筆名。

（圖片說明：試圖偽裝成Robert的J.K.Rowling；圖片來源：維基百科）

通過文風分析，作者發現暢銷書普遍更加口語化，開篇更像心聲獨白，行文更加簡潔，就像沒有裝飾品的樸素優美的杉樹，而不是過度點綴的聖誕樹。另外男女作家的文風有可以辨認的差別。有趣的是，雖然在所有暢銷書中男女作家的比例六四開，但單看文風，更多的女作家的文風量化結果接近暢銷書的文風特徵。這些有暢銷範文風的女作家大多有新聞和營銷方面的教育背景和履歷。或者說，要暢銷，得懂得怎麼跟老百姓說話。

最後，關於人物，作者發現主人公常用的動詞是能否暢銷的重要指針之一。因為性格決定命運，命運推進情節，而性格，特別是性格中是否有很強的主觀能動性，是可以用常用動詞來識別的。比如，體現強烈主觀能動性的動詞「需要」和「想要」，暢銷書的詞頻是非暢銷書的2倍；「想念」和「愛」的詞頻是1.5倍。相比之下，非暢銷書的主人公們就比較被動，經常用「接受、厭惡、看來、覺得、恢復」這樣的辭彙來形容。平均來講，非暢銷書「希望」的詞頻是暢銷書的1.3倍，「覺得」是1.6倍，而「厭惡」差不多2倍。所以，讀者喜歡有主見掌握自己命運的主人公。

以上就是兩位作者發現的套路，號稱暢銷書密碼。

這些套路到底是怎麼被他倆識破的？全是自然語言處理的招數。

套路怎麼識破的？

Jodie和Matt是良心魔術師，在《暢銷書密碼》這本書正文之後專門加了一章魔術揭秘，分享識破暢銷書套路的方法。這個方法分三步走：

扒光：用自然語言處理技術提取小說的文本特徵

找規律：從已知小說的所有文本特徵中找出與「是否暢銷書」強相關的代表特徵

歸堆：掃描未知小說的代表特徵，判斷是與暢銷書還是非暢銷書更相近

1. 首先是「扒光」，提取文本特徵。

跟人相比，機器的特長是海量閱讀和量化閱讀。人看小說，進入情節，喜怒哀樂隨著主人公變化，但是我們不會注意文字的那些量化特徵。比如：

「的地得」的詞頻是不是比正常人多？

平均句子長度偏長偏短？

同一本小說中敘述和對話的篇幅比例？

主人公喜歡用什麼動作？

小說相關主題的篇幅佔比排序？

作者更喜歡用「非常」還是「特別」還是「忒」來表程度？

機器在數數方面比人拿手多了。如果把這些可量化的文本特徵提取出來，就相當於扒掉了人眼最熟悉的一層，直接分析對比人類讀小說時忽視的那些細節。

要做到這一點，就得讓機器能讀懂人話，這就是自然語言處理。

比如嚴歌苓在《芳華》中的名言：

一個始終不被人善待的人，最能識得善良，也最能珍視善良。

要讀懂這句話，涉及到分詞、分句、詞性標註、依存句法和情感分析。

第一步是「分詞」，就是把句子分成詞。對讀中文的人或機器來說，分詞的難點在於要知道哪個字跟哪個字搭夥算一個詞。比如「善」和「良」組成「善良」。上面這句話用的都是常用詞，比較好分：

一個始終不被人善待的人，最能識得善良，也最能珍視善良。

但是，當有一些字腳踩兩隻船跟前後都眉來眼去的時候，分詞就變成一件坑機的任務。比如：

沿海南方向逃跑：「沿海」還是「海南」？
結婚的和尚未結婚的：「和尚」還是「尚未」？

上面這倆還是3P，來一個5P的：

他說的確實在理：「的確」和「實在」，還是「確實」和「在理」？

有同學說還是英文簡單吧：英文天然分詞，詞跟詞之間現成空格啊！

真的嗎？如果真是拿空格來分詞，標點符號怎麼算？是「today」還是「today,」？標點不算詞，那帶撇的那些貨呢？「can』t」? 「Robert』s」?

所以，分詞看起來簡單，也需要利用詞典和統計推斷演算法來讓機器從海量閱讀訓練中學會消除歧義和應付例外。比如，機器可以在訓練閱讀中發現，「理」字很少單獨出現在句尾，因此「在理」最可能是句尾的詞，前面自然是「的確」。

當然，即使用機器學習，也不能保證100%準確分詞。比如這句話：

兩種人容易被甩：一種不知道什麼叫做愛，一種不知道什麼叫做愛。

哈工大模型認為：

兩種人容易被甩 : 一種不知道什麼叫做愛，一種不知道什麼叫做愛。

斯坦福模型認為：

兩種人容易被甩 : 一種不知道什麼叫做愛，一種不知道什麼叫做愛。

明顯兩校都沒看懂，您說誰污誰萌？

在分詞過程中，還需要教會機器識別各種人名、地名、機構名等命名實體。這樣，

在《暢銷書密碼》里，作者就是用命名實體識別來掃描書中的地名，發現小說背景選擇的地點與暢銷與否沒關係。紐約發生的故事斯德哥爾摩的故事暢銷機會均等。

分詞之後的分句也有歧義問題。

要教機器斷句，可以簡單粗暴地用幾條規則：見到句號、嘆號、問號就算一句。這個中文還好，英文就有麻煩了：句號這個點的玩法太多。「Dr.

Smith」和「a.s.a.p.」中的點都不是句號。要消除歧義，當然可以加很多條規則，但還是很難窮舉語言中的種種例外。所以，演算法們越來越多的從羅列規則轉向海量閱讀訓練和統計推斷。

分完詞斷完句，要標註詞性。作者用名詞來歸納暢銷主題，用形容詞來分析情感，用動詞來分析主人公的主觀能動性。這裡的坑在於：同一個詞在不同句子中的詞性不同。比如「希望」可以是動詞，也可以是名詞。跟分詞分句的思路相似，詞性標註演算法也是通過海量閱讀訓練文本來熟悉同一個詞在不同句子中不同位置上的最可能詞性。

比如，《芳華》中的那句話被哈工大的系統標註成這樣：

一個/m 始終/d 不/d 被/p 人/n 善待/v 的/u 人/n ，/wp 最/d 能/v 識/v 得/u 善良/a，/wp 也/d 最/d 能/v 珍視/v 善良/a

m、d、p、n、v、u、a、wp分別表示量詞、副詞、介詞、名詞、動詞、連詞、和形容詞。

如果用《暢銷書密碼》作者使用的斯坦福模型，標註成這樣：

一/CD 個/M 始終/AD 不/AD 被/LB 人/NN 善待/VV 的/DEC 人/NN，/PU 最/AD 能/VV 識得/VV 善良/VA，/PU 也/AD 最/AD 能/VV 珍視/VV 善良/NN。/PU

而一面數據採用的詞性標註模型輸出這樣的結果：

一個/m 始終/d 不/d 被/p 人/n 善待/v 的/uj 人/n ，/x 最/d 能/v 識得/v 善良/a ，/x 也/d 最/d 能/v 珍視/v 善良/a 。/x

這裡不用深究不同系統標註符號的差別。但是注意：

哈工大模型認為第二個「善良」是形容詞（a)，斯坦福模型認為最後一個「善良」是名詞（NN)，雖然二者同意第一個「善良」是形容詞。

一面數據調校的jieba模型跟哈工大一樣認為兩個「善良」都是形容詞，但是跟斯坦福一樣認為「識得」是一個詞。（對，「結巴」不丟人。）

通過這一句話我們沒打算對比模型優劣，只是說明不同模型對同一句子的解讀可能會不同，正如人類一樣。

詞性標註之後，就可以做依存句法解析。這就是用機器熟悉的類似主程序和子程序的結構來表達一句話各個詞之間的依存關係。

上面那句話，在哈工大的系統中解析成：

（圖片說明：依存句法解析；圖片來源：https://www.ltp-cloud.com/demo/）

斯坦福的系統解析成這樣：

(ROOT (IP (NP (QP (CD 一) (CLP (M 個))) (CP (IP (VP (ADVP (AD 始終)) (ADVP (AD 不)) (VP (LB 被) (IP (NP (NN 人)) (VP (VV 善待)))))) (DEC 的)) (NP (NN 人))) (PU ，) (VP (VP (ADVP (AD 最)) (VP (VV 能) (VP (VV 識得) (IP (VP (VA 善良)))))) (PU ，) (VP (ADVP (AD 也)) (ADVP (AD 最)) (VP (VV 能) (VP (VV 珍視) (NP (NN 善良)))))))) （來源：Stanford Parser）

無論是哪種形式，總算是讓機器能理解一句話的結構了。這樣，我們就可以分析主語對應的動詞，結合命名實體識別，挑出那些主語是主人公名字的句子，我們就可以統計小說的主人公使用不同動詞的相對頻率。比如，是「需要」多一些還是「覺得」多一些。

在上文中，我們還提到了情節曲線。作者用的是情感分析。情感分析的演算法可繁可簡。複雜的情感分析也用到統計推理，簡單的用情感詞庫來標記積極和消極情感。比如「愛」是積極的，「恨」是消極的。統計推理法目前在消費者評論分析、電郵分析中已經在用。《暢銷書密碼》作者經過試驗發現對於情節曲線的提取來說，簡單的情感詞庫演算法效果還不錯。

2. 提取完文本特徵，下面是「找規律」，篩選出判據特徵。

《暢銷書密碼》的研究通過自然語言處理，分析了28,000個文本特徵，包括The的詞頻、平均句長、故事所在地等等在我們人類讀者看來非常無聊的數據。

作者經過漫長的篩選，發現其中90%確實是無聊的，它們對於一本書是否暢銷沒有任何預測價值，比如故事所在地和故事發生年份。最後中選的特徵只有2799個，這些判據特徵跟一本書是否暢銷相關，包括前面介紹的那些暢銷套路，比如親密關係主題、主人公的需要和想要、口語化縮寫的詞頻等。

發現這些判據特徵的思路很直接。

作者依據紐約時報暢銷榜把所有書分成非黑即白的兩大類：上榜的和落榜的。如果某一個特徵在上榜書和落榜書中有明顯不同，比如上榜書用「really」明顯多而用「very」明顯少，那麼「really」和「very」的詞頻就成為判據特徵之二。

3. 判據特徵有了，最後是「歸堆」，根據未知書的判據特徵值猜它是否暢銷。

根據已有知識對未知進行歸類，這是機器學習的基本問題之一。這個技術的應用不光用在診斷一本書是否暢銷，還包括其它領域比如根據癥狀診斷患者是否有癌症。機器歸類是要解決這個問題：

已知上榜書和落榜書的判據特徵值在特徵空間中的分布，給出未知書的判據特徵值，判斷它應該屬於上榜書還是落榜書。

《暢銷書密碼》的作者採用了三種歸類演算法：K最近鄰（KNN）、支持向量機（SVM）和最近收縮形心（NSC）。這些高大上的縮寫比較燒腦，咱們還是打個比方抄個近道吧。

比如您搬到了一個別墅區，周圍鄰居的小洋樓們有一期的，有二期的，分散在小區里。您想知道：過節您應該參加一期鄰居的活動還是二期的？您有三個思路。

（圖片說明：K最近鄰（K Nearest Neighbors）；圖片來源：維基百科）

第一個思路是「數鄰居」。您定個要數的個數K，比如K=3，然後環視四周，找三個最近的鄰居。是一期的多還是二期的多？哪期多您就跟哪期鄰居玩。這就是K最近鄰（KNN）演算法。

（圖片說明：支持向量機（Support Vector Machine）方法；圖片來源：維基百科）

第二個思路是「劃邊界」。您想辦法在一期洋房和二期洋房之間沿空隙最大的方向在空隙正中劃一條邊界線，如果您家落在邊界線一期一側就算一期，否則就算二期。這就是支持向量機的理念。

（圖片說明：最近收縮形心（Nearest Shrunken Centroid）；圖片來源：http://researchgate.net）

第三個思路是「看會所」。假設一期二期在各自樓群最方便的地方各自有一個會所。您看看您家離哪期的會所近，您就算哪期。這就是最近收縮形心（NSC）。

在《暢銷書密碼》研究中，作者三種方法都使用。其中，數鄰居的KNN方法在K=15時效果最好，猜中率能達到90%，劃邊界的支持向量機法（SVM）只能達到70%猜中率，而看會所的最近收縮形心法（NSC）達到79%。三種方法的綜合平均猜中率是80%。其中，NSC的額外優勢是能直接總結出上榜書和落榜書的特徵值差異，因為「會所」的位置清晰。

猜中率的具體計算是這樣的：

隨機選擇10%的上榜書和落榜書放在一旁作為待測未知書

用剩下的90%小說訓練機器，提取文本特徵，歸納出判據特徵

用判據特徵去判斷未知書是否上榜，記錄猜測的準確性

另外，還可以隨機選擇僅僅一本書放在一旁待測，用剩下的所有書對機器進行訓練和建模，然後猜測未知書是否上榜，記錄是否猜中；之後換一本書放在一旁，用剩下的所有書再次建模再次測試，以此類推，計算總體猜中率。

所以，識破暢銷書套路，離不開自然語言處理和機器學習的套路。包括：

怎麼通過分詞、分句、命名實體識別、詞性標註、句法依存解析和情感分析來準備素材，提取文本特徵

怎麼通過相關性分析從文本特徵中篩選出與上榜落榜最相關的判據特徵

怎麼通過三種機器歸類方法，根據未知書的判據特徵值，猜測未知書上榜還是落榜

註：本文僅為作者觀點，不代表DT財經立場。

題圖 | 站酷海洛

▍數據俠門派

本文數據俠張戎，一面數據數據專家。數據冰山通過數據挖掘與分析，呈現互聯網海面下隱藏的數據秘密。

▍加入數據俠

「數據俠計劃」是由第一財經旗下DT財經發起的數據社群，包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟，旨在聚集大數據領域精英，共同挖掘數據價值。了解數據俠計劃詳情請回復「數據俠計劃」，投稿、合作請聯繫datahero@dtcj.com。