如何評價 2017 年 IHMSC 上發表的探測流量的論文?

2017年IHMSC上發表了一篇名為The Random Forest based Detection of Shadowsock"s Traffic的論文。該論文是否能為探測流量找到新的方法?

(根據推薦邀請了一堆人,如果不相關我表示道歉)


這個論文的writing簡直跟新東方的留學中介相當。無力吐槽。

格式也極其不專業,圖表用excel截圖還行?

不過看到這個會議CCF推薦列表都查不到,也就是連C類都不如,IEEE的介紹裡面參會作者全是中國人,瞬間也就明白了。

我就說幾點:

With the development of anonymous communication technology, it has led to the fact that the network monitoring is becoming more and more difficult.

excuse 喵?一股高中英語作文強行湊句式的文風

We can get over 85% detection accuracy rate in our experiments after applying Random Forest Algorithm by collecting train set, gathering features, training models and predicting results.

啥?get over難道不是克服(overcome)的意思嗎?這裡應該是reach over 85%...才對吧

With the number of requirements of oversea news is increasing in recent years, the news even contain sensitive information in politics, economics, democratic, financial, technology and so forth.

喵喵喵?作者大概是想表達「人們對海外新聞的需求量越來越大」這個意思吧。。但是這句話完全無法理解。。反正我是相信留學中介肯定是能寫出這麼爛的文章的。

這還只是開頭一小部分,剩下不看了,不浪費時間了。

That"s it.


看標題還以為是北郵乾的。。。

語法數據啥的差就差啦,這個工程的價值觀我覺得很有問題。


這論文作者的價值觀跟日偽軍和蓋世太保相差無幾,即便是這樣一個角色,他們做的也很不專業。

朕的大清要亡了。


瀉藥。這篇文章讀了一下,感覺有點玄學的感覺。以下內容純主管推測,如果和實施情況不相符,請向原作者求證。

本文使用了隨機森林的方法,隨機森林作為一種簡單樸素的分類器有著非常廣泛的應用。隨機森林對於硬體要求不高,在性能相對缺乏的地方很適用。但是隨機森林作為一種線性分類器有著線性分類器固有的缺陷。隨機森林對於複雜問題的解決能力往往不是很好,完全依賴於數據的預處理。隨機森林用於流量特徵檢測是非常古老的一種方法了,本文的方法創新的程度有點不足(個人感覺)

本文中說SS是基於SSH的,而這一段描述是完全錯誤的。這一點上我認為我敢確信是錯誤的。希望作者和審稿人能夠給出合理的解釋。

本文的最大的亮點大概是使用隨機森林達到了85%的ACC,這是非常不容易的。但是作為特徵分類器,這裡沒有給出分類的混淆矩陣,並不能知道真實的誤判情況。在一個正常國內網路情況,基本全部樣本都是negative樣本,我的分類器只要輸出false就可以有接近100%的acc了。作者這裡的acc這個指標的選擇很有問題。希望呢夠看到到混淆矩陣這樣有效的數據。

看一下這個發表的會議,大概是浙大的一篇水會(存疑),但是可以確定的是這個至少不是一頂會。在這種會議上發的文章含金量可能還是會比較遭到質疑的。

以上的懷疑只是個人以學術的眼光看的,並不存在任何的利益相關什麼的。只是希望有更多更新更好的方法可以出現(學術上)。至於問的是否會有啟發作用,當然是會的,畢竟學術研究都是站在前人的肩膀上。但是這篇文章的方法本身個人是不推薦的,因為有一些更好更新的方法可以使用。


求四位作者 Ziye Deng ; Zihan Liu ; Zhouguo Chen ; Yubin Guo 學術成就介紹和聯繫信息~


從學術角度來說,挺水的,一個應用而已。不過一旦想到這個角度,還可以用很多其它機器學習的方法來做這件事。

水歸水,不過如果真的對SS流量有85%的準確度,對上邊來說絕對夠用了,錯殺一萬不可放過一個嘛。而且從文章的說法來看,訓練數據不需要很多,這就很可怕了。

不知道SS的開發者怎麼應對這個,對這方面具體的細節不是很了解,不過從原理上看感覺怎麼改都沒用,就算改了,牆那邊只需要很快地重新訓練一下就可以了,很快就能再次識別出來。

不過我覺得SS開發者們首先要做的是先自己實現一下這個方案驗證一下是不是真的有那麼准…畢竟這文章雖然發在IEEE了,但各種細節可以看出還是很水…

然後如某答案所說,這文章太中式英語了,看得難受…


讀了 感覺沒什麼價值


這一看就不是北郵年初那篇,而是篇跟風的吧。

北郵那篇估計不會用英文寫,只會內部交流?


今天看了一下

個人認為是水文一篇。。。。。

我看了原文,就一個隨機森林,還是python包里的,好水。效果他自己說85%,鬼知道真實環境里會怎樣。

年輕人不要總想搞個大新聞

要腳踏實地。。?


為什麼要浪費時間來討論這種la圾會議的垃ji文章,表示費解~


推薦閱讀:

如何評價演算法本身的理解不重要 ,只要會用現成的開源工具來實現就可以這種觀點?
怎麼從零實現車牌識別(LPR)?
如何用TensorLayer做目標檢測的數據增強

TAG:網路安全 | 機器學習 | 模式識別 | 特徵選擇 |