《Improving Document Clustering by Eliminating Unnatural Language》閱讀筆記

01-29

轉載請註明出處：西土城的搬磚日常
論文鏈接：Improving Document Clustering by Eliminating Unnatural Language

來源：arxiv(CVPR 2017?)

問題：

本文研究的主要問題是非自然語言（unnatural language）的識別問題.這裡的非自然語言指的是文本（尤其是技術類文本）中出現的表格、數學表達式、代碼以及其他非自然語言文本.這些文本會影響現有NLP工具的效果。作者這裡將非自然語言的識別任務採用類似信息檢索的思想解決，對於PDF,PPT,HTML格式的等非自然語言信息較為豐富的文本，提取相關特徵，設計多類分類器，將這些文本分為上述四個類別，並通過實驗分析了非自然語言文本對於文本聚類的影響（負面）

背景介紹：

非自然語言指的是包含前述四種組成成分的文本行和塊（block）。現有的自然語言分析工具，往往基於自然語言文本，如果可以將文檔的非自然語言部分去掉，可以提高現有分析工具的分析效果。

文檔布局分析（Document Layout Analysis）通過將文檔中的各個塊分類為圖片，表格等成分，對文檔布局進行分析。主要研究對象是PDF,OCR等格式的等基於圖的文檔。

非自然語言會對文檔分析產生負面影響。作者在下圖中，以二分查找和合併排序為例。這兩者之間應該差異較大，但由於代碼中變數的命名及關鍵字等相同的很多，如果基於傳統的文檔相似計算方法分析的話，會被其所影響（即黃色部分）。

現有提取技術：

表格部分，現有技術往往基於圖片信息進行識別。但是，現有技術並未涉及純文本(plain text)（圖片信息已經被破壞）情況下，表格的提取工作。下圖右側的圖反映的就是表格在純文本中的一般表現形式

數學表達式, 現有方法主要基於字元級特徵或者格式特徵進行判斷。本文採用的方法為字元級特徵，根據符號，相對位置，運算符，字元串長度等特徵進行判斷。

代碼段，現有方法有三種：規則，機器學習，兩者結合。有人將代碼段的主要特徵總結為：字體特徵（font-style features）,上下文特徵，內容特徵，結構特徵。

其他，下面是其他非自然語言的例子。這些內容會引入無關的雜訊。

實驗：

1、問題定義

本文研究的主要對象是PDF，PPT等抽取得到的純文本.目的是為文本中的每一行打相應的標籤：普通自然語言，或者非自然語言中的一種（表格，表達式，代碼段，其他）。這裡預測每一行的類別，是因為這樣可以觀察其語義結構，語法結構是否穩定，同相鄰行的格式對比情況。為因為圖片一般很難直接轉換為文字，本文不考慮它的分類問題。

2、準備工作