大公司裡面有人專門負責標註數據嗎?

比如分詞類的工具,可能跟領域相關,用該領域的詞典和語料來訓練CRF效果應該比通用的分詞器效果要好很多(特別是一些術語)。這種情況下,工程上的做法是自己找人分詞?還是用規則方法結合領域詞典來解決?哪個性價比更高?


不知道別的公司怎樣,我的老東家還是很low的…

老東家是國內某領域第二,世界前十,擁有覆蓋該領域的全棧產品,已上市,cmmi5,勉強稱得上大公司。

當時我就聽隔壁演算法部的兄弟哭訴說他們太特么慘了,為了做一個特定的圖像演算法做訓練/實驗數據集,發動全部門人對幾萬張圖進行人肉打標,眼睛都要瞎了…


可能會有。

還有專門標數據的公司。


有啊

為啥沒有


量大得靠眾包平台吧。。 開發自己也標註,比如標註黃圖啥的。。(╬▔ ω▔)


花錢標數據是機器學習在工業界的終極殺招。


採購數據堂的是好的選擇,他們的語料和圖片包雖然貴點,但據我所知,現有買單的大客戶還都是挺牛的。所以如果自己做成本太高的話不如購買,畢竟人家專門搞了個眾包拉一堆兼職的做,這東西沒那麼大技術含量,把成本挪到五線城市會好很多。


我前公司是在大學裡找的勤工儉學的,100一天。


當然是去招聘一些實習生咯,畢竟廉價嘛


是的,請人標,每年花多少錢我就不告訴你了,但是就是標不準。


無論大公司小公司,臨界點都是成本和收益而已。

如果自己做的成本小於外包,那肯定自己做了。

一般來說,公司大了後,會有非常多的與數據標註相關的工作。這個時候,要麼找長期的供應商,要麼就自己做了


我們公司就是做數據標註的,國內外客戶都有,很多客戶都是大家很熟悉的。一些大客戶會有自己的標註團隊,但是人數很少,只是為了內部測試。一旦需要大量標註時,比如幾萬工時以上,人手就不夠了,會交給我們。現在也有很多初創的小公司,本身是做技術的,沒有能力組建標註團隊,所以也會和我們合作。外包畢竟還是節約成本的。 另外對於想把業務外包的公司,有時候真的不能光看價格,也得看質量。價格報的特別低的,你覺得質量真的有保障么,萬分之3和萬分之0.5精度的成本肯定不一樣。我們有不少國外客戶之前都是外包給印度的,但是說實話印度是便宜,但是質量只能呵呵了。


一般外包的會多一些。省錢的話就給自己人標了。自己人都比較靠譜,標的比較認真,外包的經常有拿錢糊弄事兒的…


Amazon的Mechanical Turk啊


剛做完一個圖像識別的數據標註的平台,將來會給合作的高校學生使用。

沒有技術含量,純人肉標註,但是依靠機器學習,系統會自動的識別一些內容,人肉做校對和修改。為了提高標誌者的工作效率,在設計的時候會系統的梳理整個標註工作的流程,三步並兩步,一步搞定的最好。

回到題主的問題,同理推斷,應該是機器半自動識別+人工校對審閱。


這個和公司大小沒有直接關係,一切都要從需求出發。

如果你現在的業務依賴相關數據,但這些數據又是零散的,那麼我們需要進行標註;

再,如果你的核心不是做技術的,你有何必專門養人做這個事,隔行如隔山,為什麼不請第三方專業公司做這個事情呢?


2333我們部門的數據是自己寫個標定軟體,就交給隔壁全是女性的部門給標。有時候標的質量不是很好,我就自己標 。我們是小公司。


有,標註相關工作會安排在人力成本比較低的分公司。


有自己招人,比如實習生、兼職或者較低薪資的員工,花費的管理費用折算下來後不低,質量難保證;還有些公司找專業的團隊,只需對任務定義好需求,最後驗收,集中精力做演算法,省時省力。


一般大公司(其實不局限於大公司),很多有深度學習或者機器學習產品或者技術輸出的公司都需要大量數據訓練模型、演算法等,通常我接觸的公司要麼是產品線的人負責,要麼運營的人負責,要麼跟供應商對接的人負責,基本上根據公司架構,有的是正式員工做質檢外包服務商進行一級,有的是正式員工質檢,實習生做前期數據標註


我們公司是專業的數據標註外包公司,歡迎各位老闆諮詢標註業務。


推薦閱讀:

中國有包含底層邏輯都是自己的資料庫嗎?
如何評價貴陽建設「大數據之都」的計劃?
目前創辦一家數據挖掘的公司難點在哪裡?
有人了解Pivotal這個公司嗎,前景如何?
為什麼說HADOOP擴展性優於MPP架構的關係型資料庫?

TAG:機器學習 | 自然語言處理 | 中文分詞 | 分詞搜索 | 大數據 |