大數據時代,法學實證研究新玩法
來自專欄知智4 人贊了文章
法學實證研究是以數據為核心的研究,法律大數據技術的運用將帶來研究範式的轉變。法律運行中的實然規律與成文法規定的應然規律的偏差,正是大數據時代下法學實證研究的重要價值。
2013年是法律大數據元年,最高人民法院設立中國裁判文書網,裁判文書的公開上網,為以數據為基礎的法學實證研究帶來新機遇。海量數據公開使得法律數據資源化,法學實證研究從「樣本數據研究」到「全量數據研究」變成可能,但這些公開數據如何真正服務於法學實證研究呢?
法律人的檢索需求,是法律大數據首先應當滿足的基礎需求,但目前的檢索技術仍然存在不足:
?數據限制
判決書並未全部公開,且光有判決書是不夠的。
?檢索受限
目前普遍使用的關鍵詞檢索精確性不足,無法支持複雜的組合檢索。
?分析困難
裁判文書網不能對檢索出的文書自動進行文書分析,需要人工逐篇篩選。
▲認知需求與檢索技術的不相匹配
法律檢索就是對案件的分類和匹配過程,實際是機器對案件的法律認知過程。這個過程經歷了以下階段:
?屬性相似階段
案件屬性相似包括罪名、審判級別、審理程序、判決時間、審理法院、當事人屬性等維度。它能實現一些簡單的檢索,但僅是上述維度的相似遠不能滿足法學實證研究的要求。
?文本相似階段
文本相似是常見的模式,它經歷了從詞語匹配到語句匹配,最終到篇章匹配。但自然語言博大精深,對機器來說,犯罪「數額較大」和「數額巨大」,屬於文本相似,但對法律檢索而言,一字之差,天壤之別。
?要素相似階段
法律要素是指影響法官裁量的最小顆粒度的法律事實,是元典現階段在文本相似外採取的另一種檢索模式。如故意傷害罪中,持械是影響定罪量刑的要素,但案件中表述可能有拿砍刀,掄起棍棒,掏出匕首,攜帶槍支等等。而實證研究中需要檢索的往往不是具體工具,而是是否有持械這個要素。可見從法律要素的角度出發,才是相當一部分的真實的法律檢索需求。
那麼,機器如何實現這種法律要素式的檢索呢?
答案是:知識圖譜,這是法律大數據時代的新技術,也是大數據時代法學實證研究的新工具。
知識圖譜本質是具有關聯關係的知識庫,【法律知識圖譜就是眾多法律要素組成的知識庫】,它包括法律概念層面的具體內容,同時和證據、法律法規、相關案例對接。
AlphaGo戰勝柯潔讓人們興奮地期待機器代替法律人的未來。但事實上,AlphaGo只是一個極其複雜的程序計算,圍棋輸贏需要考量的因素是有限的。相較於圍棋,法律認知要複雜無數,包含社會經驗常理情感價值權衡等。機器戰勝人腦,不代表AI可以替代法律人,在相當長時期內,AI都只是法律人的工具,不可能取代法律人。
與AlphaGo最初需要學習人類棋譜一樣,法律知識圖譜構建的核心是機器能夠模擬法律人的真實法律邏輯。目前主要採取監督學習方法,簡單說就是人工標記數據提供給機器,告訴機器這些標籤數據的含義,訓練機器學習。
舉個例子,喪葬費在真實文本中有多種表述,你首先需要教會機器,當它看到「美容」這兩個字時能正確識別這也可能是喪葬費,但這需要大量的專業人力投入,所以我們常說「有多少人工就有多少智能」。
【大體量的高質量的標籤數據是法律人工智慧的基礎】。
知識圖譜不僅是一項技術,更是一項工程。
它的形成過程很複雜,大致經歷這幾個步驟:小樣本研究,監督學習,人工標記,人工檢索,強化學習,交叉驗證,原型開發,模型測試,部署試用,模型調整。
在投入大量的法律專業人才和技術人員共同努力下,目前元典已經完成了刑事共計55個罪名(覆蓋95%的案件量)實體法律知識圖譜的研發。
知識圖譜作為核心的底層技術,已運用到元典的眾多產品中,例如《新聞聯播》專門介紹我們給北京市高院設計的「睿法官」,《今日說法》介紹了我們的檢察系統的「曉督」項目。
量刑輔助系統,是元典2017年開發的產品,同樣是基於知識圖譜技術。它能根據公開的3000多萬裁判文書全面、實時的分析,推送具有類似量刑情節(即量刑法律要素)的真實案例,並提供量刑分析報告。該系統能根據法律要素,推送量刑結果,並對結果進行具體的分析,還能對每個情節在這類案件中的影響進行數據分析。
大數據分析技術能反映出法學實證研究中許多值得思考或研究的問題。例如,危險駕駛罪中,血液究竟含量80毫升/毫克和還是200/毫升,量刑集中區間差別明顯,但是是否具有坦白情節則對量刑集中區間影響甚微,這和危險駕駛罪中絕大部分案件都具有坦白情節有關。再如,數據分析顯示,危險駕駛罪判決結果的顆粒度有精確到月的,也有精確到天的。
大數據無法告訴我們why ,但忠實的呈現了規律和問題,這就是實證研究的重要基礎。
數據、法律、演算法,這是市場上評價法律大數據公司優劣的三大層面,也恰好能說明法學實證研究在大數據時代的挑戰:
?數據:數據是基礎
王堅博士的《在線》說得很好,數據的意義不在於大,而在於活,即數據是實時的、在線的、連通的、可用的。但目前裁判文書網公開的仍然有限,數據不齊全,且在裁判文書外外還更多的有價值的其他數據未公開,所以元典在努力做一件事:從數據孤島到法律智庫。
元典建立了自己的律師平台,目的之一就是打通檢察院、法院、律師三大業務場景的數據。並基於華宇集團在全國幾十個省市和司法部門已合作的數據基礎,進行數據治理,統一數據格式,建立數據中心。
元典睿核是元典底層支持平台,以法律知識圖譜為基礎,通過自然語言處理和機器學習,提供法律認知能力的法律大數據知識服務。其中數據融合是基礎,包括音視頻案件資料的數據轉化,還融合和法律有關的各種數據,如工商數據等。
?法律:專業壁壘
市場上很多公司都在嘗試構建法律知識圖譜,但對法律知識圖譜的定義、構建的邏輯和內容都有所不同。
一方面法律知識圖譜是給機器使用的,而非純法律專業視角。
另一方面,法律知識圖譜是動態更新、複雜專業的,僅在法律專業層面就對構建的專家團隊提出很高的要求。元典現在的法律團隊,分成刑事法和民商法、行政法、及數據法學等多個組別,五十多人基本都是碩士學歷,有多名博士,多名資深檢察官、法官。
?演算法:需要突破
如果有人強調他的演算法是絕對領先,能夠即刻解決問題的,基本可以肯定是個忽悠。演算法的基礎依舊是法律領域的專業問題能夠被機器識別,法律知識圖譜的構建還是基礎,如前所述,大體量的高質量的標籤數據是基礎。此外,通用的演算法是開源的,而不是絕對獨享的。元典不僅具有很強大的技術團隊支撐,積累多年經驗。還和哈爾濱工業大學國家自然語言實驗室,清華大學計算機系國內頂級的機構和技術專家都有許多合作。當然,演算法是需要不斷突破的,這樣才能更好實現人工標記數據到機器自主學習。
隨著大數據分析技術進入各行各業並以驚人的速度應用和發展,基於大數據的實證法律研究的發展也是毋庸置疑的,大數據時代的實證法律研究是技術與法律的深度結合,它離不開數據分析技術的進步,同時也離不開法學理論研究的支撐。
推薦閱讀: