面向機器學習的特徵工程 三、文本數據: 展開、過濾和分塊
來自專欄信數據得永生
來源:ApacheCN《面向機器學習的特徵工程》翻譯項目
譯者:@kkejili校對:@HeYun
如果讓你來設計一個演算法來分析以下段落,你會怎麼做?
Emma knocked on the door. No answer. She knocked again and waited. There was a large maple tree next to the house. Emma looked up the tree and saw a giant raven perched at the treetop. Under the afternoon sun, the raven gleamed magnificently. Its beak was hard and pointed, its claws sharp and strong. It looked regal and imposing. It reigned the tree it stood on. The raven was looking straight at Emma with its beady black eyes. Emma felt slightly intimidated. She took a step back from the door and tentatively said, 「hello?」
該段包含很多信息。我們知道它談到了到一個名叫Emma的人和一隻烏鴉。這裡有一座房子和一棵樹,艾瑪正想進屋,卻看到了烏鴉。這隻華麗的烏鴉注意到艾瑪,她有點害怕,但正在嘗試交流。
那麼,這些信息的哪些部分是我們應該提取的顯著特徵?首先,提取主要角色艾瑪和烏鴉的名字似乎是個好主意。接下來,注意房子,門和樹的布置可能也很好。關於烏鴉的描述呢?Emma的行為呢,敲門,退後一步,打招呼呢?
本章介紹文本特徵工程的基礎知識。我們從詞袋(bags of words)開始,這是基於字數統計的最簡單的文本功能。一個非常相關的變換是 tf-idf,它本質上是一種特徵縮放技術。它將被我在(下一篇)章節進行全面討論。本章首先討論文本特徵提取,然後討論如何過濾和清洗這些特徵。
閱讀全文
推薦閱讀:
※如何獲取可區分性的特徵(loss functon篇上)
※特徵工程-Outliers
※特徵工程簡介
※OneHotEncoder獨熱編碼和 LabelEncoder標籤編碼
※基於Python互聯網金融LeningClub貸款違約預測模型