老大讓我去面試(一)--從文本分類角度對於簡歷進行類別判斷

有一天在看paper時,hr說老大讓你去看看這個簡歷符合不符合候選人要求(先說下,公司一直在招做ocr以及做NLP相關的職位,最好是二者合一的),我就說你先放在這裡我看看,我瀏覽了下,看到上面提到ocr、語言模型、實體識別等辭彙,覺得應該符合,就讓hr聯繫下去面試。

我原本以為這事就是讓我臨時救急的,誰知後面變本加厲了,有事沒事讓我幫忙看看簡歷咋樣啥的。這一天天的,我不能因為這些事耽誤我正常擼代碼吧。

然後我就傻呵呵的想,不就是倆判斷語句同時成立嘛,比如我建立一個關於ocr相關的關鍵詞詞表,一個關於nlp相關的詞表。然後我這人比較懶,就想到可以用簡歷弄個tf-idf啥的統計一下出個詞表,但是轉念一想,我沒有那麼簡歷啊。即便我有智聯招聘賬號,但是下載還是要花錢啊。然後靈機一動,我還不如去抓招聘網站的jd了,我就用scrapy寫了個爬智聯招聘的爬蟲,分別搜索關鍵詞是「ocr」和「nlp」(當然「字元識別」與「自然語言處理」也是),然後拿到jd存入到我可愛的mongodb里。如圖所示(左擊放大

然後下一步,我就對ocr和nlp相關職位的details欄位做個詞頻統計,看看倆職位啥詞頻比較靠前,我最後發現我有些單純,裡面分詞的結果與我想的不一樣。我要的是「知識圖譜」,你給我出來的是「知識」和「圖譜」,這可咋辦。當然需要做新詞發現了,具體演算法網上挺多代碼的,我就不獻醜了,也可以看我之前那篇文章(詞向量與《人民的名義》 - 知乎專欄)裡面有個參考文檔可以看。然後我就做新詞發現吧,我取詞的長度是4和5,比如nlp相關的詞語如圖所示:

我篩選下,然後把這些詞放到用戶詞典,然後對於hr給我的簡歷,先進行分詞,然後判斷分詞的詞是否在我的詞表裡,好像是那麼回事哈。但是仔細想想,比如模式識別,可能既是nlp,又是cv,所以此時我需要干點事,那就是判斷候選人提及到的項目到底屬於哪個概率大一些,比如某一日只想讓我招nlp的,我得好交差啊。

然後我對資料庫里的job_name做了個分類,包括行政、銷售、nlp,cv啥的,然後拿著job_name各自對應的details欄位,做了個主題向量,然後搞定了。拿著前幾天幾個候選人的簡歷測試了一下。

這是某電商網站做推薦系統的,以及物品標籤工程師簡歷:

結果是nlp

下面再測試一個,這人是某實驗室圖像處理的負責人。

結果是cv

---------------------------------------------------------------------------------------------------------------------------

分割線

---------------------------------------------------------------------------------------------------------------------------

我發現現在很多公司都在做諸如文本分類、主題發現等,以及一些從異構數據抽取相關數據,我打算剩下的部分寫寫怎麼做這些事情

二.對於pdf格式,docx,doc格式的簡歷解析,包括pdf轉xml,以及信息抽取(不包括表格)等

三.從圖像處理角度對掃描件的pdf解析,包括掃描件版面分析,OCR,表格信息抽取等

四.涉及的部分代碼開源
推薦閱讀:

EBT:Proposal與Tracking不得不說的秘密
KCF公式推導錯誤及驗證
[171102] 圖像處理背景介紹
利用條件GANs的pix2pix進化版:高解析度圖像合成和語義操作 | PaperDaily #23

TAG:自然语言处理 | 图像处理 | 文本数据挖掘 |