【轉】用於專利檢索及分析的深度學習AI

02-15

原文鏈接：

https://www.linkedin.com/pulse/deep-learning-ai-patent-search-analytics-sumeet-sandhu/

作者:Sumeet Sandhu,CEO, co-founder of Elementary IP, Deep Learning for Patent Analysis | Elementary IP

應該是一篇介紹他們Elementary IP的文章，所以文中的我、我們，應該指的是Elementary IP相關人員。

文中提及的一些ppt之類的可以去原文中點擊超鏈接打開，鑒於google大部分人都上不去，就不在這裡加超鏈接了。

譯文：

專利檢索或任何檢索的根本難點是找出檢索所用的關鍵字。不知道什麼是自己所不知道的，如何找到正確的答案？

嚴肅的技術檢索不是one-button-press，而是一種探索或者說是朝向正確答案攀登。以一組檢索條件開始，點擊「檢索」，然後查看最上方的結果來衡量相關性。如果幸運的話，立馬找到了好的匹配結果，檢索就完成了。大多數情況下，會發現檢索結果並不是很好，但是這些不是很好的結果往往會啟示更新更好的檢索條件。然後，將新發現的術語加入到經修改的檢索條件中重複沖洗直到成功或者精疲力竭。

深度學習AI使檢索過程變得更加簡單。明確地幫助檢索者做出更好選擇的步驟有兩個：（1）提煉檢索條件以進行自由文本檢索（例如：關鍵字），以及（2）對檢索條件深耕和提煉，以對相似的文檔檢索進行（例如，專利授權文本或申請文本）。深度學習還隱含地（3）改進了文檔檢索和分類，因為與潛在語義分析等傳統技術相比，其能夠生成高細粒度（finer-grained）的辭彙和文檔模型。將在接下來的部分對這三個方面進行介紹。

自動從專利數據原文中（native patent text）提取同義詞

深度學習從專利數據原文中提取同義詞和其他「-onyms」。檢索者可以檢索實際專利數據中出現過的相似術語，而不是一些無關的外部辭彙。

例如，考慮下美國分類USC370（通信）中的phone。在USC370的AI模型中，其臨近分類包括telephone、呼機（pager）、cellular等，它們與phone的距離沿順時針方向逐漸增加，在距離phone最近的12點鐘處顯示出最接近的分類。詞泡的大小反映了文檔頻率，例如，telephone比telephones更常用，可能是用於這一類的主題名稱。有些臨近分類是phone的替代品，例如telephone和pager。其他則是在短語中被修飾，如免費電話（toll-freephone）或者攜帶型電話（cellular phone）。

如果進一步點擊下方的cellular和telephone，會發現一個不錯的語義學分組，其中「wireless」的術語與cellular在左側，如行動電話（mobile）、步話機（walkie-talkie）、無繩電話（cordless）等；而陸線電話（land-line phones）與電話（phone）在右側，如固定電話（fixed-line）、有線電話（wireline）、POTS等。

總之，基於上下文的辭彙模型捕捉到了「onyms」在句法和語義意義上的豐富相似性。參見美國專利分類370,166（油井）、705（軟體）、726（安全）和CPC專利分類A61F2（假體/支架）中相似術語的例子，其中還包括取決於技術的「onyms」的示例。未來的AI功能將分離出各種類型的「onyms」以進行更加清晰的分析。

通過拓撲聚類，提取專利的檢索密碼

使用深度學習構建的文檔模型經常會提供有趣的語義匹配結果，這些匹配結果不會在關鍵字布爾檢索中被找到。但是這種匹配並不總是精確的。為了提高精度，我們使用專有的拓撲聚類來提取專利文檔中發明的關鍵元素，然後將這些發明的元素用作檢索條件以進行相似文件檢索，達到了更好的精度。檢索結果對查詢的術語非常敏感，並且似乎發明元素的最佳集合的效果是最好的。可以將發明元素的最佳集合理解為文檔的檢索密碼以解開「clustered near the top」的那些最佳匹配結果。用戶可以迭代地對自動發現的發明元素進行精練，以優化該密碼。

在我們的PIUG20170523演示文稿中進行了兩個案例研究，以演示相似文檔檢索：

1.US7450489--向後兼容WiFi協議，用於單天線設備和多天線設備共存；
2.US7326240--盤繞/彎曲/螺旋的血管支架，用於引起漩渦流動以防止凝結或阻塞。

三個檢索平台被用來相互比較：

（A）Google專利現有技術檢索；
（B）CPA Global/ Innography；
（C）EIP 深度學習。

從三個平台收集了檢索結果和排序，並在專利家族間進行了統一（譯者註：harmonized across patent families，應當指的是屬於同一patent family的結果被認定為是相同的結果？）。手動評估每個平台的前25個匹配結果的相關性。下表總結了為每個平台找到了多少個獨一無二、正中靶心的匹配結果。

我們認為前兩個平台是基於公開的、可能是過時的信息。Google從專利中提取發明術語後進行關鍵字檢索（在結果中按降序分配標題、摘要、權利要求的權重），更好地提取查詢條件可以改善結果。Innography使用一個引用圖表來捕捉前後引證間的關係，當引用圖表中出現好的匹配結果時，Innography的表現很好。EIP使用深度學習提取專利的檢索密碼以進行相似性檢索，優於兩個傳統平台；為了進一步改進，可以給結果中的專利的各部分或引證文檔添加精確的權重。

總的來說，準確率和召回率對評估都很重要。對大數據集進行測試召回具有挑戰性，稍後將根據應用需求進行處理。

將新文獻分進CPC和USC專利分類

如美國專利商標局所做的將未標記的文檔（專利申請文本、授權文本、一般技術文獻）分進CPC分類是一個相當複雜的程序。不僅要考慮文件的技術領域，還必須詳細檢查權利要求的性質（設備、過程、化學式等）。我們在PIUG 20170523演示文稿中介紹了第一部分——基於深度學習的文檔模型的技術分類。

為了簡化這個過程，我們只考慮標有單個「第一發明」類型的CPC分類（而不是「Later Invention」或「附加」分類，它們相比核心發明分類是次要的）的文檔（譯者註：we only consider documents labeled with a single "First Invention" type of CPC class，不知道這個"First Invention" type到底是啥子）。我們在下述這些示例分類的層級結構間分類：

（1）E21B-土層鑽進，例如深度鑽進；

（2）H04L1-檢測或防止收到信息中的差錯的裝置；

（3）A61F2-可植入血管中的濾器；假體，即用於人體各部分的人造代用品或取代物；用於假體與人體相連的器械；對人體管狀結構提供開口或防止塌陷的裝置, 例如支架；

（4）A61K39-含有抗原或抗體的醫藥配製品。

使用logistic回歸的隨機梯度下降的分類器，準確率在5次運行中取平均值。最老的90％的文獻用於訓練分類器，最新的10％的文獻用於測試。在分類的由分類器排序的前10％中測量準確率，我們假設用戶將手動curate分類的前10％以找到最佳的分類。

該表顯示，大多數分類的準確率在90％以上。分類準確率是許多因素的結果：

（a）分類技術-生物技術分類優於高科技分類；

（b）分類文獻數-文獻眾多的分類表現優於文獻稀疏的分類；

（c）分類系統-CPC分類優於USPC（未示出），以及

（d）分類特徵-深度學習優於潛在語義分析，語義分析以50％的噪音告敗（未示出）。

如果沒有分類工具，用戶必須檢查數百個分類。使用EIP深度學習分類器，用戶可以只檢查全部分類的10％，並達到90％以上的準確率。因此深度學習將效率提高了10倍。我們正在增加基於規則的AI權利要求分析以提高準確性、減少跨技術分類的內容管理費用。我們也在設計所有CPC分類的層級分類。

結論

深度學習檢索優於傳統檢索：

?深度學習通過表達語義相關的相關術語來幫助檢索式的用戶管理

?深度學習會自動制定高質量的查詢條件（檢索密碼），以便快速收斂到正確的匹配結果；

?深度學習加速了典型的專利檢索，例如現有技術檢索、侵權檢索、無效檢索、FTO檢索、Landscape檢索

深度學習在分類中提供了10倍的加速

?潛在語義分析不能提供可行的性能

接下來我們的路線圖是將深度學習應用於非專利文獻和圖像/圖形分析。我們邀請您至info@elementaryIP.com試用我們的技術。