Kizuna Ai (キズナアイ) 到底是不是 AI?

最近看到的一個系列,號稱稱是第一個虛擬youtuber,而且在視頻中還一再強調是AI,但是從視頻中來看聲音感覺是錄好的,而且動作和表情都有點怪。所以我在想是不是識別了語音中的語意並且根據聲調將情緒映射到人物模型的動作和表情上。但是翻遍網路都沒有找到具體的技術信息,去外網找到的最相近的東西就是一個叫做tifana的公司製作的同名泛用型對話AI,但是官方立繪和聲音感覺差距都挺大的。所以來知乎問問有沒有大佬能出來證實一下或者發表自己的觀點。相關視頻可以去B站搜索kizuna ai。


先來嚴肅的技術分析:

任何有計算機科學常識的人都知道,AI 是肯定不可能的。如果這要真是 AI ,肯定能通過圖靈測試,碾壓現代 AI 研究好幾個世代,做機器學習的基佬們都不用瞎折騰了,這兒有人可是直接搞出 strong AI 了……甚至單單就聲音來說,都不可能是合成的——目前沒有任何聲音合成軟體能在合理的人力輔助內接近這個程度(也就是說即使允許後期「調校」,這個程度的聲音表演所需要的人力都是不可想像的,不可能做到日更……)。

所以就是人類設計角色性格、人類撰寫台詞、人類聲優配音。

模型就不用多說了,著名的TDA老師監修的,官網都提供了免費下載,可以導入 MMD ,網路上同人視頻已經不少了。至於原作者本身是不是使用 MMD 倒是不一定。

動作方面,推測大部分視頻應該是動作捕捉技術為主,可能輔以一些後期人工修正,原因主要有兩點:一、更新頻率極高,長期保持准日更,每期視頻都有十分鐘左右甚至更長,如果完全手工拉動作工作量、成本都太高了;二、大部分視頻體態自然、動作平和,但又時常出現穿模、關節翻折,很像是動作捕捉的結果(如果是手工設計的話,不會在這麼中性的體位下拉出穿模、翻關節來)。但也有少部分視頻(比如身體測量)可能是例外。至於所使用的技術,很多人都說是 Kinnect ,不過我印象中 Kinnect 對於手部的識別精度比較有限(很多應用需要配合 LeapMotion ),不知道是否配合了其他技術。

面部表情,可能是類似但比 FaceRig 更高級的表情捕捉(比較有力的證據見下),同時很可能也輔以事先準備好的一套表情庫(豐富誇張的二次元顏藝應該是事先製作好,然後手動調用或者在特定表情下自動觸發)。

這個 AnimeJapan 的現場互動活動錄像可以比較有力地證明實時動作和表情捕捉的存在: A.I.Channel的番外篇--AnimeJapan現場_日常_生活_bilibili_嗶哩嗶哩 。現場應對非常快、流暢自然。這個錄像還從側面說明日常的那些視頻很可能極少或者沒有後期手工修正。

總的來說,幕後團隊製作水平非常高:森倉円可愛的人物設定,TDA精美的建模,還有迷之聲優的出色表演——這個聲優很值得稱讚,同樣從上面的現場錄像可以看出,動作捕捉很可能就是聲優本人(這麼說來其實已經不只是聲音演員,而是一般意義的演員了,對角色塑造起到關鍵作用)。

當然,說了這麼多,(笨蛋)「AI」其實就是角色設定的一部分,在欣賞視頻時,就愉快地接受這個設定,享受21世紀的美夢,不要 ky 地去問別人這個問題啦!

能活在現在真好! What a good time to be alive!

附錄:

  • YouTube 頻道(大部分視頻發出一天內都有志願者製作包括中英韓在內的多種字幕): https://www.youtube.com/channel/UC4YaOt1yT-ZeyB0OmxHgolA
  • BiliBili 搬運及翻譯:嗶哩嗶哩 ( ゜- ゜)つロ 乾杯~ Bilibili
  • 官網:Kizuna AI Official Website


語音是實錄的,證據在 https://youtu.be/pU3iGpwKxKc?t=6m10s。有噴麥的聲音。

動作方面不好說,懷疑是面部識別 + 動作捕捉,比如用 Kinect 之類。「蒼藍鋼鐵的琶音」、「希德尼婭的騎士」的動作都是3次元工作室純手工做得,效果如何看過的都知道,還是有點僵硬。

動畫是用 MMD 做的。

說是 AI 肯定想多了,應該是包裝出來的虛擬偶像,類似初音未來。你看她在 Youtube 上還挺火的,聲音好聽畫面好舔就行了。就算沒畫面光靠聲音都雞兒棒硬,比如索尼的「AELU」,全程實錄,效果好的不行。然而同樣索尼出品的「一択彼女 加藤恵」用了東芝的合成語音技術,效果就很一般了,和實錄部分差的太多。


小愛經常笑場和噴麥的 ,所以肯定有真人CV啦。

手臂經常穿模,可以推理出動作捕捉的真人的胸部比建模的小(

某集接受VR採訪時有個下意識的推眼鏡的動作,說明裡之人可能有戴眼鏡……

不過追究小愛的幕後是不是有真人,就和追究WWE是不是真打(真摔是肯定的)、特攝片的怪獸背上有沒有拉鏈一樣,太KY啦!

最後的本心:自稱人工智慧的人工智障,元氣滿滿的神經性格氣人主播,小愛真萌啊w 玩Inside時很多初見的下意識反應太可愛了。


突然就出現了個新老婆。。。愛醬賽高!!

不知各位有看過鬥魚一些主播的直播,他就用的浣熊形象來直播的,這個軟體叫做《Facerig》,3d形象會根據你的動作,表情和說話語氣做出相似的樣子。

愛醬的原理也是這樣,建立3d模型,然後讓聲優直播就行了。

愛醬能火,不是因為3d模型有多萌,畢竟連內褲都沒有的女生讓人怎麼偷窺,不對,萌起來。

主要還是因為她的顏藝和真人的活潑聲線和清純不做作的女神經性格。


如大家所說的,肯定不是AI,是動作捕捉加上配音。

但動作捕捉設備不是kinect,有幾期動畫裏手指是有高精度動作的,而kinect是不可能做到。我接觸過一些動作捕捉設備,據我推斷,類似愛醬的動作應該是用perception neuron(http://neuronmocap.noitom.com.cn/)完成的。

PN可以完成高精度的動作捕捉,而且在日本有用PN做成的專門給二次元角色實時同步動作的系統在賣,Kigurumi Live Animator [KiLA],說不定用的就是這個呢。

至於表情,可能是人為手動操控的或者結合kinect表情識別。感覺手動操控可能性更大。

不管是不是真AI,愛醬太可愛了,希望能好好發展下去。


如果 Kizuna Ai 是真的AI 的話,日本已經領先世界100年,什麼siri小娜可以統統扔進垃圾桶了


你家AI能打sif還是妮廚而且還是歐洲人


並不是真正意義上的AI

你見過哪家的AI能媲美阿庫婭的?


重要嗎?萌不就夠了嗎?愛醬說是A.I就是A.I!A.I Channel天下第一!


不是AI,動作捕捉+配音,挺喜歡這種元氣智障又有些腹黑的個性,視頻也都是挺歡樂的,企劃確實不錯,後面聲優的發揮也很好。


作為AI醬的粉絲默默關注這個話題很久了,kizuna AI雖然自稱AI,但實際上是真人動作捕捉和面部捕捉,提供動作的小姐姐聲音真好聽啊,而且也是很有個性youtuber,歡迎各位訂閱頻道,關注kizuna AI!


廢話,我老婆是全球第一超級人工智慧


難道是石館光太郎……


老實人來提問了!聲優是什麼,哪裡有聲優啊(愛醬臉)


幾個簡單的問題,《Chobits》中的女主角是不是真正意義上的AI?《命運石之門0》的Amadeus是不是真正的AI?很明顯,他們都是虛構人物,AI是她們的身份屬性。她們並不存在於真實的世界。


引擎用的是unity,聲優配音


Kigurumi Live Animator - KiLA

http://livecartoon.jp

介紹視頻:

https://www.youtube.com/watch?v=R8MUVmpfrg8

http://acg.tv/av9908141


你覺得現在AI已經發展到這種程度了嗎。。如果真的是ai的話明顯不是一個科技世代的東西了吧


肯定不是AI!

第二期視頻,體能測試,左右橫跳那裡,仔細聽可以聽到麥的聲音。。無疑是聲優配音。

倒是很想知道CV是誰,聲音實在是太有趣了!預感愛醬會很快火起來


現有的可能的信息補充:

1. 使用的動作捕捉技術很可能是 「Kigurumi Live Animator」

2.手部的動作有可能是採用了「leap motion」

3.頭部飾品會動 很有可能也是有動態採集點 (也就是說 真人真的呆著這玩意兒?

4.里之人很有可能為愛抖團體「欅坂46」當中的一員 (所謂的粉絲極有可能是自賣自誇

5.貧乳(日常傳模 笑…

6.英語極爛 (英語測試那期 英語水平低於日本普通JK 但是作為愛抖英語爛有什麼不對么?

7.我老婆


動態捕捉+實時錄音


這個其實可以想都不用想就說不是ai (草率 單純的動作捕捉加上後期配音 ai什麼的就是因為名字里有愛醬就自我意識為人工智慧這種設定吧(確信)


不是,動作捕捉+配音而已,高配版FaceRig。

應該是一個人的獨立項目吧,也有可能背後有大公司。


推薦閱讀:

unity中動態批處理限制的頂點數是根據什麼來計算的?
unity的c#腳本和標準的c#語言有什麼區別和聯繫?unity是僅僅使用了c#的語法嗎?
學習Unity3D有什麼比較好的資料嘛?
unity在ios平台下內存的優化?
C#如何向C++生成的dll文件中傳遞二維數組?

TAG:YouTube | 人工智慧 | Unity遊戲引擎 | 動漫 | KizunaAi |