上海交大盧策吾團隊開源PointSIFT刷新點雲語義分割記錄

上海交大盧策吾團隊開源PointSIFT刷新點雲語義分割記錄

來自專欄機器之心85 人贊了文章

上海交通大學盧策吾團隊 MVIG 實驗室最近開源了 PointSIFT,這是一個點雲特徵的提取模塊。在 Stanford Large-Scale 3D Indoor Spaces(S3DIS) [1] 中可以達到 70.23 的 mIoU(對比 PointCNN 62.74, 相對提高 11.9%)。在另一個常用數據集Stanford ScanNet [2]上可以達到 41.50 的 mIoU(對比 PointNet++ 38.28, 相對提高 8.1%)

論文:PointSIFT: A SIFT-like Network Module for 3D Point Cloud Semantic Segmentation

論文作者:Mingyang Jiang、Yiran Wu、Cewu Lu (通訊作者)

  • 閱讀論文:arXiv:1807.00652, 2018;arxiv.org/abs/1807.0065
  • 論文主頁:mvig.org/publications/p
  • 代碼鏈接:github.com/MVIG-SJTU/po

眾所周知,三維語義分割存在著很多的挑戰。由於計算量的原因,我們無法將 2D 卷積神經網路直接推廣到 3D。自從 PointNet 系列出現之後,大家開始使用原始點雲作為基本輸入。這樣做能夠的保留原始數據的內在關係,並且也能夠減少很多不必要的計算。

這個框架現階段仍有一些問題, 比如每個點操作過於獨立,而無法高效刻畫相關區域的語義結構。針對這些問題,受到傳統 SIFT feature 設計的啟發,上海交大 MVIG 組提出了基於 PointSIFT 運算元的框架。在結構語義描述上,傳統 SIFT feature 設計是最有效的描述運算元之一。在圖像上,SIFT 運算元能編碼區間上各個方向的信息,同時選擇最合適的表徵尺度。我們的 pointSIFT 將其設計思想推廣到 3D 點雲域上,對於每一個點雲能端對端地輸出一個表徵向量,該向量編碼了各個方向的信息,同時自適應地選擇合適的表徵尺度。不同於 SIFT 傳統演算法,我們採用網路結構,網路參數是由訓練獲得。

三維點雲 PointSift 模塊與圖像 SIFT 運算元的類比

pointSift 模塊作為一個通用提高表徵能力的模塊,可以靈活地嵌入在各種 pointnet 框架中,比如下圖所示。

基於 pointSIFT 嵌入的點雲分割網路 SA 和 FP 分別為編碼器 (Set Abstraction) 和解碼器 (Feature Propagation) 模塊

參考文獻:

  1. Iro Armeni, Ozan Sener, Amir R. Zamir, Helen Jiang, Ioannis Brilakis, Martin Fischer, and Silvio Savarese. 3d semantic parsing of large-scale indoor spaces. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2016.

  2. Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, and Matthias Nie?ner. Scannet: Richly-annotated 3d reconstructions of indoor scenes. In Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2017.
  3. Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation. arXiv preprint arXiv:1612.00593, 2016.
  4. Lyne P. Tchapmi, Christopher B. Choy, Iro Armeni, JunYoung Gwak, and Silvio Savarese. Segcloud: Semantic segmentation of 3d point clouds. CoRR, abs/1710.07563, 2017.
  5. Lo?c Landrieu and Martin Simonovsky. Large-scale point cloud semantic segmentation with superpoint graphs. CoRR, abs/1711.09869, 2017.
  6. Charles R Qi, Li Yi, Hao Su, and Leonidas J Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. arXiv preprint arXiv:1706.02413, 2017.
  7. Y. Li, R. Bu, M. Sun, and B. Chen. PointCNN. ArXiv e-prints, January 2018.

Prof. Cewu Lu is a research Professor at Shanghai Jiao Tong University, leading Machine Vision and Intelligence Group. He is also one of MIT TR35 -"MIT Technology Review, 35 Innovators Under 35 (China)". He was Postdoc at Stanford AI lab (under Fei-Fei Li and Leonidas Guibas) and selected as the 1000 Overseas Talent Plan (Young Talent) (中組部青年千人計劃).

推薦閱讀:

未來 | 人工智慧在金融業還會有怎樣的突破?
Visual SLAM整體框架
外語專業,路在腳下
【CVPR 2018】用狗的數據訓練AI,華盛頓大學研發模擬狗行為的AI系統
人工智慧將毀滅人類?霍金、蓋茨、扎克伯格結隊撕逼互相打臉,你選擇幫誰

TAG:人工智慧 | 語義 | 自然語言處理 |