先進的圖像識別怎樣改變 AV 產業?

圖像識別這麼強,如果應用到 AV 產業會是個什麼樣子?


說到這方面,日本人表示,你們都弱爆了!

我來舉幾個例子:

一、chainerによるディープラーニングでAV女優の類似畫像検索サービスをつくったノウハウを公開する - Qiita

翻譯:使用chainer和深度學習搭建女優圖像檢索服務

這位仁兄做了個實驗,使用爬蟲在網上搜集了大量的女優面部圖片,使用dlib做面部識別的處理。使用chainer搭建神經網路並測試。最後實現的功能就是,根據一副圖像,自動識別最相似的女優。

更厲害的是,最後作者表示:「最後に宣伝になりますが、CNNを使ってAV女優の類似畫像検索をしたサイトを作っているので、よかったら見てみてください。」。也就是說,他把這個服務搭建成了一個網站,歡迎大家來訪問。網站的地址我就不發車了,大家自己到原文去找吧。
_(:3」∠)_

二、ディープラーニングで「顔が似ているAV女優を教えてくれるbot」を構築 - Qiita

翻譯:使用深度學習構建一個可以自動檢測最相似女優的機器人

這個看起來和第一個差不多,其實是不一樣的。這個機器人能從面部打碼的圖片,識別出原來的人物是誰

效果如圖:

機器人:照片中的人物為上原亞衣。相似度98.730320%。

三、ディープラーニングで顔寫真から巨乳かどうかを判別してみる (うまくいったか微妙) - Qiita

翻譯:使用深度學習,通過面部照片,嘗試判別胸部大小。

這個腦洞我真的表示無語,真的能成功么?

作者還是一樣的套路,先搜集了好多面部圖片當訓練集。使用了tensorflow進行訓練,最後的結果如下:

巨乳的召回率為82%(69/84)
貧乳的召回率為37%(30/81)

作者表示巨乳組正確率喜人,但貧乳組不行。要提高正確率,還要更多的數據集。

另外摘錄一些有趣的網友評論:

yomox9: 有意思。那麼從男性的面部特徵出發,好像也可以做相同的事情呢。

u651601f:求巨乳圖片的訓練集。感謝樓主。

四、Ecstascene: 音特徴を利用した成人向け動畫における最高潮場面推定システム

翻譯:使用音頻特徵推測成人視頻的最高潮場面

嚴格來說這個其實不是圖像領域了。原文我沒找到,不過看標題基本就明白什麼意思了。

補一張圖(作者竟然是東京大學情報理工系的,為什麼研究的東西那麼奇怪......):

(感覺要掉粉了)本答案部分例子參考了:
深度學習應用在哪些領域讓你覺得「我去,這也能行!」? - 楊振宇的回答 - 知乎


謝邀。

在「非法」查看色情視頻時,你是否也為其「漫長」的鋪墊和前奏感到懊惱呢?前幾天,GitHub 用戶 ryanjay0 開源了一個可以用來識別色情視頻中特定類型的場景的人工智慧項目 Miles Deep。該演算法可以將你想看的類型的片段從完整視頻中截取出來並生成一個集合了這些片段的新視頻,讓你可以不再為那些多餘的片段煩惱。

Miles Deep 使用了一個帶有殘差連接(residual connections)的深度卷積神經網路(DCNN),可以基於性行為(sexual act)將一段色情視頻的每一秒分類成 6 種類別,其準確度高達 95%。然後它可以使用這種分類來自動編輯該視頻。它可以移除所有不包含性接觸的場景,或者編輯去掉一種特定的性行為。


Miles Deep 和雅虎最近發布的 NSFW 模型(見機器之心報道《雅虎開源首個色情圖像檢測深度學習解決方案》)使用了類似的架構,但不一樣的是 Miles Deep 還能夠區分裸體和多種特定的性行為之間的不同。就我所知,這是第一個公開的色情視頻分類或編輯工具。


這個程序可以說是使用 Caffe 模型進行視頻分類的一種通用框架,其使用了 C++ 的 batching 和 threading。通過替換權重、模型定義和 mean file,它可以立即被用於編輯其它類型的視頻,而不需要重新編譯。下面會介紹一個例子。

  • Miles Deep 項目地址:ryanjay0/miles-deep

  • 雅虎 NSFW 模型地址:yahoo/open_nsfw

安裝


Ubuntu 安裝(16.04)


依賴包(Dependencies)

sudo apt install ffmpeg libopenblas-base libhdf5-serial-dev libgoogle-glog-dev

額外的 14.04 依賴包

sudo apt install libgflags-dev

CUDA(推薦)


如果要使用 GPU,你需要 Nvidia GPU 和 CUDA 8.0 驅動。強烈推薦;可提速 10 倍以上。這可以通過軟體包安裝或直接從 NVIDIA 下載:CUDA 8.0 Downloads


CUDNN(可選)


這是來自 NVIDIA 的額外的驅動,可以讓 CUDA GPU 支持更快。在這裡下載(需要註冊):NVIDIA cuDNN


下載 Miles Deep

  • miles-deep (GPU + CuDNN)

  • miles-deep (GPU)

  • miles-deep (CPU)

也要下載這個模型。將 miles-deep 與該模型的文件夾放在同一個位置(而不是在模型文件裡面)。

註:是在一個 GTX 960 4GB 上測試了一段 24.5 分鐘長的視頻


Windows 和 OSX


我目前還在開發用於 Windows 的版本。但我沒有 Mac,不過應該只需要做一些小修改就可以在 OSX 上運行。編譯指令如下。ryanjay0/miles-deep


使用方法


例子:

miles-deep -t sex_back,sex_front movie.mp4

這能找到後向和前向的性愛(sex from the back or front)場景,並輸出結果到 movie.cut.avi

例子:

miles-deep -x movie.avi

這能編輯去除 movie.avi 中所有的非性愛場景,並將結果輸出到 movie.cut.avi。


例子:

miles-deep -b 16 -t cunnilingus -o /cut_movies movie.mkv

這能將批大小(batch size)減小到 16(默認為 32)。篩選出舔陰(cunnilingus)的場景,結果輸出到 /cut_movies/movie.cut.mkv


註:如果你的內存不夠,可以減小批大小


在多種批大小情況下的 GPU VRAM 用量和運行時間:

該結果是在帶有 4GB VRAM 的 Nvidia GTX 960 上測試得到的,樣本是一段 24.5 分鐘的視頻文件。當 batch_size = 32 時,處理 1 分鐘的輸入視頻大約需要 0.6 秒,也就是說每小時大約 36 秒。

除了 batching 之外,Miles Deep 還使用了 threading,這讓其可以在分類的過程中截取和處理截圖(screenshot)。


預測權重


這裡是一個預測一段視頻中每一秒的例子:

通過你自己的 Caffe 模型使用 Miles Deep


找貓


下面這個例子是如果通過你自己的模型(或一個預訓練的模型)使用這個程序:

MODEL_PATH=/models/bvlc_reference_caffenet/


miles-deep -t n02123045

-p caffe/${MODEL_PATH}/deploy.prototxt

-m caffe/data/ilsvrc12/imagenet_mean.binaryproto

-w caffe/${MODEL_PATH/bvlc_reference_caffenet.caffemodel -l caffe/data/ilsvrc12/synsets.txt movie.mp4

這能找到在 movie.mp4 中的所有帶有虎斑貓(tabby cat)的場景,並返回僅帶有這些部分的結果 movie.cut.mp4。


代碼中的 n02123045 是虎斑貓的類別。你可以在 caffe/data/ilsvrc12/synset_words.txt 查找這些類別的代碼。你也可以使用一個來自 model zoo 的預訓練的模型:BVLC/caffe


註:這個例子只是展示了其中的句法。但不知怎的,在我的經歷中它的表現很差,很可能是因為分類有 1000 個。這個程序也能完美適合帶有一個「other」類別的分類數量更小的模型。


模型


該模型是一個用 pynetbuilder 創建的帶有殘差連接(residual connections)的卷積神經網路(CNN)。這些模型都是 ImageNet 上預訓練的。然後其最終層經過調整以適應新的分類數量和微調(fine-tuned)。


正如 Karpathy et al 的論文《Large-scale Video Classification with Convolutional Neural Networks》建議的那樣,我訓練了最上面 3 層的權重而不只是最頂層的,這稍微提升了一些準確度:

下面使用不同的模型微調最上面 3 層所得到的結果,該結果是在 2500 張訓練圖像上測試得到的,這些圖像來自與訓練集不同的視頻。

訓練損失和測試精度:

在所有測試的模型中,resnet50_1by2 在運行時間、內存和準確度上表現出了最佳的平衡。我認為全 resnet50 的低精度是因為過擬合(overfitting)的關係,因為它有更多的參數,也許其訓練可以按不同的方式完成。


上面的結果是通過 mirroring 而非 cropping 得到的。使用 cropping 能夠將在 resnet50_1by2 上的結果稍微提升至 95.2%,因此它被用作了最終的模型。


使用 TensorFlow 微調(fine-tuning)Inception V3 也能實現 80% 的準確度。但是,這是使用 299x299 的圖像大小,而不是 224x224 的大小,也沒有 mirroring 或 cropping,所以它們的結果不能直接進行比較。這個模型可能也會有過擬合的問題。


編輯電影


給定對於每一秒的幀的預測,它會獲取這些預測的 argmax(最大值參數)並創建這段影片的截斷塊(cut blocks),其中的 argmax 等於目標(target),而其分數(score)也比一些閾值要大。其中的差距大小、匹配每個模塊中目標的幀的最小比例(minimum fraction)和分數閾值(score threshold)都是可以調整的。FFmpeg 支持很多編解碼器(codecs),包括 mp4、avi、flv、mkv、wmv 等等。


單幀 vs 多幀


這個模型並不使用任何時間信息,因為它分別處理每一張圖像。Karpathy et al 的論文表明其它使用多幀(multiple frames)的模型的表現並不會好很多。它們難以應對相機的移動。將它們的慢融合模型(slow fusion model)與這裡的結果進行比較仍然是很有趣的。


數據


其訓練資料庫包含了 36,000(和 2500 測試圖像)張圖像,分成了 6 個類別:

  1. blowjob_handjob

  2. cunnilingus

  3. other

  4. sex_back

  5. sex_front

  6. titfuck

這些圖像的大小都調整為了 256x256,並且帶有水平鏡像(horizontal mirroring),並且為了數據增強(data augmentation)還隨機剪切(cropping)成了 224×224 的大小。有很多實驗沒有剪切,但這能稍微提升 resnet50_1by2 的結果。


目前來說,這個數據集還受限於兩個異性戀表演者。但鑒於這種方法的成功,我計劃擴大分類的數量。因為這些訓練很敏感,我個人並不會放出這些資料庫;而只會提供訓練出來的模型。


前向和後向性愛


這裡的前向和後向性愛(sex front and back)是由相機的位置決定的,而非表演者的方向。如果女性表演者的身體面向相機,那麼性器官的前面就展示了出來,這就是前向性愛(sex front)。如果女性的後面被展示了出來,就是後向性愛(sex back)。這創造了兩種在視覺上不同的分類。其中在性交和肛交之間不做區分;前向性愛和後向性愛可能兩者都包含。


編譯

  • 克隆包含 Caffe 作為外部依賴包的 git repository

  • 按步驟指令(Caffe | Installation)安裝 Caffe 依賴包以用於你的平台。Ubuntu 指令(Caffe)。默認的是 OpenBlas。不要擔心編輯 Makefile.config 或使用 Caffe 的問題。在 Ubuntu 16.04 上嘗試這個,並在其上附加依賴包:

sudo apt install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler

sudo apt install --no-install-recommends libboost-all-dev

sudo apt install libopenblas-dev python-numpy

#Add symbolic links for hdf5 library#(not necessary on LinuxMint 18)cd /usr/lib/x86_64-linux-gnu

sudo ln -s libhdf5_serial.so libhdf5.so

sudo ln -s libhdf5_serial_hl.so libhdf5_hl.so

  • 默認的是不帶 CuDNN 的 GPU。如果你想用其它的工具,請編輯 Makefile 和 Makefile.caffe。注釋掉和取消注釋這兩個文件中對應的行即可。

  • make

證書


代碼(包括訓練好的模型)按 GPLv3 授權。Caffe 使用的是 BSD 2 授權。


你別說,還真有。


前幾天,GitHub 用戶 ryanjay0 開源了一個可以用來識別色情視頻中特定類型的場景的人工智慧項目 Miles Deep。該演算法可以將你想看的類型的片段從完整視頻中截取出來並生成一個集合了這些片段的新視頻,讓你可以不再為那些多餘的片段煩惱。

http://mp.weixin.qq.com/s/b0vn1DQl2_F1-lbdlKVLtA

Github項目地址https://github.com/ryanjay0/miles-deep

這樣大家以後就可以高速開車了,實現「無人駕駛」 ,不過這個項目下面大家最關心的是讓作者公開測試集 。


說實話,偏個題,雖然答了會掉粉,但是為了廣大淫民的福利,為了教育你們這些技術宅,不得不說一下——用深度學習去搞AV的圖像識別都弱爆了. 你們就沒有抓住客戶最核心的需求.

AV這個東西,是用來滿足特定群體的需求的.
圖像方面,如果是正規公司的作品,其實現在已經做的足夠好了. 高清無碼數位馬賽克的都有,什麼細分的品類都能滿足. 如果加上VR,AR,AV的圖像痛點其實已經很少了.


圖像已經身臨其境了,那麼最大的痛點是什麼——語音識別和自動翻譯啊.


比如歐美和其他國家看島國的片子,很多時候不知道女優在說什麼. 而非英語母語的看歐美的,也不知道女優在說什麼.
活塞運動所有花樣都膩了,但很多有劇情的,千姿百態的同居生活,人妻,調情,前戲,叫床,明明也很有意思,卻聽不懂

以至於現在草榴AV發片都以標榜字幕來吸引點擊率,而字幕都是瞎編的……. 根本對應不上.坑爹啊.

為什麼中國的偷拍自拍視頻近幾年這麼火,因為自帶國語對白這個市場很大, 但是畢竟小作坊的產品跟專業公司去對比,畫質清晰度拍攝角度都差遠了,毫無美感,就是獵奇用用,解決了一個痛點帶來了另一個更大的痛點.

那個技術宅能夠用深度學習去做AV語音識別,把女優有意義的聲音翻譯成客戶看的懂的字幕,或者把H遊戲裡面的聲優聲音翻譯成看得懂的字幕. 就算收費都肯定賺瘋了.

我代表廣大人民對您說一句——
技術牛人您辛苦了!
好人一生平安!
世世代代子子孫孫都平安!


看到很多答案說根據上傳的照片推薦最相似的女優這點我覺得還是太保守了,思維要開闊!

試想一下,如果把每段AV視頻中女優的臉的3D模型,對於相機的角度,以及光照模型識別並擬合出來。再讓用戶上傳一張照片,同理重建出3D模型,去掉光照影響。然後,可以直接把視頻每一幀中女優的頭完全替換成照片上人的頭,而且膚色,環境光,角度,表情等等都可以控制得和原視頻一樣,絕對逼真。這是什麼概念?造夢機器的雛形啊!到時候估計沒幾個女生敢往社交網路里發自拍了。。

目前根據照片重建3D人臉並生成不同表情的技術是完全沒有問題的,但從視頻中直接提取渲染參數以及向視頻中渲染的研究才初有成效。不過相信在不遠的將來,這都可以成為現實。其實有一點現在的技術完全能達到,就是把我說的應用到3D成人遊戲中。

在國外創業的小夥伴們不妨好好考慮下我的idea吧,免費送給你們!做成後肯定劃時代啊。我覺得這個在概念上的優勢猶如當年的Facebook!「人們更希望了解與欣賞他們身邊的美女。」

嗯,寫完意識到還是有些偏題,畢竟實現這個想法還要用到圖像識別以外的一些技術。其實我有時還會想一個問題,就是總有一天,計算機生成的視頻和語音都將通過圖靈測試。到那個時候,如何保證傳媒與司法程序中所採用的視音頻的真實性呢?我們的科技還是發展得太急了,或者說,必須重視同步發展相關法制與人們倫理、心理上的東西。


不要忘了還有super resolution,薄碼變無碼


已刪除



呵呵,以前迅雷快傳用的那個視頻鑒黃演算法,是我們實驗室做的。
所以影響最大的大概就是,以後資源會越來越難找了吧。


打馬賽克
打碼這種工作在幾年前開始就是由電腦自動完成的。準確率極高,早期的軟體打完碼還要人一幀幀看,現在的版本已經可以通過抽查監測質量。不僅如此,打碼部位的大小也可以精確控制,不會有早期整張臉都糊住的慘劇。

而且各個廠家打出來的碼都不太一樣,有的是等差放大型,有的是高斯模糊;形狀既有多邊形的也有橢圓形的。不知道是否是各自獨立研發的系統。


歐美有個手機應用,根據你非死不可上的朋友照片,向你推薦最相似的女優。


搜這張圖片出處,搜索結果推薦了《星光大道》


識別模型可以發出來,訓練集就不太合適了吧。
根據《刑法》第三百六十三條、第三百六十四條

第三百六十三條 以牟利為目的,製作、複製、出版、販賣、傳播淫穢物品的,處三年以下有期徒刑、拘役或者管制,並處罰金;情節嚴重的,處三年以上十年以下有期徒刑,並處罰金;情節特別嚴重的,處十年以上有期徒刑或者無期徒刑,並處罰金或者沒收財產。為他人提供書號,出版淫穢書刊的,處三年以下有期徒刑、拘役或者管制,並處或者單處罰金;明知他人用於出版淫穢書刊而提供書號的,依照前款的規定處罰。

第三百六十四條 傳播淫穢的書刊、影片、音像、圖片或者其他淫穢物品,情節嚴重的,處二年以下有期徒刑、拘役或者管制。組織播放淫穢的電影、錄像等音像製品的,處三年以下有期徒刑、拘役或者管制,並處罰金;情節嚴重的,處三年以上十年以下有期徒刑,並處罰金。製作、複製淫穢的電影、錄像等音像製品組織播放的,依照第二款的規定從重處罰。向不滿十八周歲的未成年人傳播淫穢物品的,從重處罰。


我就想知道你們哪來的這麼多數據集,我也想訓練個模型。。。


感覺最近火熱的GAN,PixelRNN特別適合用來demosaicing,難道沒有人來做嗎?!


如果放到中國……

【中國政府引進新技術凈網】

【xx雲盤響應政府號召積极參与凈網活動】

…………嗯……我現在百度雲某個文件夾里全都是小視頻
沒錯就七秒鐘那個


我失業了??


某些搞dl的人,你們是在斷程序員的糧啊!以後蒼老師,波老師等等不能下載的時候,就是你們哭的時候。


這種問題居然沒用老司機發車,還好刷出來了…滴


你們這個樣子早晚有一天知乎會被戒色吧統治的!


推薦閱讀:

TAG:人工智慧 | 機器學習 | 圖像識別 | 娛樂產業 |