上海交通大學盧策吾團隊 MVIG 實驗室最近開源了 PointSIFT,這是一個點雲特徵的提取模塊。在 Stanford Large-Scale 3D Indoor Spaces(S3DIS) [1] 中可以達到 70.23 的 mIoU(對比 PointCNN 62.74, 相對提高 11.9%)。在另一個常用數據集Stanford ScanNet [2]上可以達到 41.50 的 mIoU(對比 PointNet++ 38.28, 相對提高 8.1%)

論文:PointSIFT: A SIFT-like Network Module for 3D Point Cloud Semantic Segmentation

論文作者:Mingyang Jiang、Yiran Wu、Cewu Lu (通訊作者)

  • 閱讀論文:arXiv:1807.00652, 2018;arxiv.org/abs/1807.0065
  • 論文主頁:mvig.org/publications/p
  • 代碼鏈接:github.com/MVIG-SJTU/po

眾所周知,三維語義分割存在著很多的挑戰。由於計算量的原因,我們無法將 2D 卷積神經網路直接推廣到 3D。自從 PointNet 系列出現之後,大家開始使用原始點雲作為基本輸入。這樣做能夠的保留原始數據的內在關係,並且也能夠減少很多不必要的計算。

這個框架現階段仍有一些問題, 比如每個點操作過於獨立,而無法高效刻畫相關區域的語義結構。針對這些問題,受到傳統 SIFT feature 設計的啟發,上海交大 MVIG 組提出了基於 PointSIFT 運算元的框架。在結構語義描述上,傳統 SIFT feature 設計是最有效的描述運算元之一。在圖像上,SIFT 運算元能編碼區間上各個方向的信息,同時選擇最合適的表徵尺度。我們的 pointSIFT 將其設計思想推廣到 3D 點雲域上,對於每一個點雲能端對端地輸出一個表徵向量,該向量編碼了各個方向的信息,同時自適應地選擇合適的表徵尺度。不同於 SIFT 傳統演算法,我們採用網路結構,網路參數是由訓練獲得。

三維點雲 PointSift 模塊與圖像 SIFT 運算元的類比

pointSift 模塊作為一個通用提高表徵能力的模塊,可以靈活地嵌入在各種 pointnet 框架中,比如下圖所示。

基於 pointSIFT 嵌入的點雲分割網路 SA 和 FP 分別為編碼器 (Set Abstraction) 和解碼器 (Feature Propagation) 模塊


Prof. Cewu Lu is a research Professor at Shanghai Jiao Tong University, leading Machine Vision and Intelligence Group. He is also one of MIT TR35 -"MIT Technology Review, 35 Innovators Under 35 (China)". He was Postdoc at Stanford AI lab (under Fei-Fei Li and Leonidas Guibas) and selected as the 1000 Overseas Talent Plan (Young Talent) (中組部青年千人計劃).


