老大讓我去面試（一）--從文本分類角度對於簡歷進行類別判斷

01-26

有一天在看paper時，hr說老大讓你去看看這個簡歷符合不符合候選人要求（先說下，公司一直在招做ocr以及做NLP相關的職位，最好是二者合一的），我就說你先放在這裡我看看，我瀏覽了下，看到上面提到ocr、語言模型、實體識別等辭彙，覺得應該符合，就讓hr聯繫下去面試。

我原本以為這事就是讓我臨時救急的，誰知後面變本加厲了，有事沒事讓我幫忙看看簡歷咋樣啥的。這一天天的，我不能因為這些事耽誤我正常擼代碼吧。

然後我就傻呵呵的想，不就是倆判斷語句同時成立嘛，比如我建立一個關於ocr相關的關鍵詞詞表，一個關於nlp相關的詞表。然後我這人比較懶，就想到可以用簡歷弄個tf-idf啥的統計一下出個詞表，但是轉念一想，我沒有那麼簡歷啊。即便我有智聯招聘賬號，但是下載還是要花錢啊。然後靈機一動，我還不如去抓招聘網站的jd了，我就用scrapy寫了個爬智聯招聘的爬蟲，分別搜索關鍵詞是「ocr」和「nlp」（當然「字元識別」與「自然語言處理」也是），然後拿到jd存入到我可愛的mongodb里。如圖所示（左擊放大）

然後下一步，我就對ocr和nlp相關職位的details欄位做個詞頻統計，看看倆職位啥詞頻比較靠前，我最後發現我有些單純，裡面分詞的結果與我想的不一樣。我要的是「知識圖譜」，你給我出來的是「知識」和「圖譜」，這可咋辦。當然需要做新詞發現了，具體演算法網上挺多代碼的，我就不獻醜了，也可以看我之前那篇文章（詞向量與《人民的名義》 - 知乎專欄）裡面有個參考文檔可以看。然後我就做新詞發現吧，我取詞的長度是4和5，比如nlp相關的詞語如圖所示：

我篩選下，然後把這些詞放到用戶詞典，然後對於hr給我的簡歷，先進行分詞，然後判斷分詞的詞是否在我的詞表裡，好像是那麼回事哈。但是仔細想想，比如模式識別，可能既是nlp，又是cv，所以此時我需要干點事，那就是判斷候選人提及到的項目到底屬於哪個概率大一些，比如某一日只想讓我招nlp的，我得好交差啊。

然後我對資料庫里的job_name做了個分類，包括行政、銷售、nlp，cv啥的，然後拿著job_name各自對應的details欄位，做了個主題向量，然後搞定了。拿著前幾天幾個候選人的簡歷測試了一下。

這是某電商網站做推薦系統的，以及物品標籤工程師簡歷：

結果是nlp

下面再測試一個，這人是某實驗室圖像處理的負責人。

結果是cv

---------------------------------------------------------------------------------------------------------------------------

分割線

---------------------------------------------------------------------------------------------------------------------------

我發現現在很多公司都在做諸如文本分類、主題發現等，以及一些從異構數據抽取相關數據，我打算剩下的部分寫寫怎麼做這些事情

二.對於pdf格式，docx,doc格式的簡歷解析,包括pdf轉xml,以及信息抽取(不包括表格)等

三.從圖像處理角度對掃描件的pdf解析，包括掃描件版面分析，OCR,表格信息抽取等

四.涉及的部分代碼開源
推薦閱讀：

※EBT：Proposal與Tracking不得不說的秘密
※KCF公式推導錯誤及驗證
※[171102] 圖像處理背景介紹
※利用條件GANs的pix2pix進化版：高解析度圖像合成和語義操作 | PaperDaily #23

TAG:自然语言处理 | 图像处理 | 文本数据挖掘 |