【NVIDIA 2022 春季 GTC】NVIDIA Omniverse 帶來的虛擬人、數位孿生、AI 應用,三個亮點快速看!
GTC 2022 的重頭戲:CEO 黃仁勳的演講在台灣時間 2022/03/22 11:00PM 時進行。回顧 GTC 2021 時技驚四座的數位孿生技術展示,在本次大會上又延伸初更多長足的進展;我們看到更多環繞模擬平台 Omniverse 進行的研究以及完善現實的案例。
【亮點一】Maxine 結合自然語言處理、電腦繪圖,弭平線上會議的隔閡
由於疫情之故,近年來線上會議的比重越來越高,Maxine 帶來突破性的會議體驗,它能夠實現:
- 語音辨識生成即時字幕
- 機器翻譯打破語言隔閡
- 依照翻譯生成相應的語音、臉部動畫
- 調整臉部畫面,使講者與聽眾保持眼神交流
語音辨識、機器翻譯生成即時字幕
Maxine 能夠實時產生講者的字幕,並且能夠翻譯成七種不同的語言,對不同母語的溝通者帶來極大的便利;語言將不再是溝通的隔閡。
依照翻譯生成相應的語音、臉部動畫
Maxine 不僅能做到即時的語音辨識與翻譯,更能夠進一步生成目標語言的語音、目標發音的嘴型與臉部動畫,就好像講者本來就使用該語言來做溝通一樣。
調整臉部影像,保持與聽眾的眼神交流
調整臉部影像,讓講者好像隨時都面對著其他會議的與會者,對講者在看稿時有很大的幫助。
關於 Maxine
Maxine 之所以能夠實現上述的功能,是使用 NVIDIA 自家的 「對話式 AI 框架 RIVA」以及「模擬平台 Omniverse」,RIVA 包含自動語音辨識(automatic speech recognition,ASR)和文字轉語音(text-to-speech,TTS),而 Omniverse 則產生栩栩如生的人物外觀。
我們認為 Maxine、RIVA 未來勢必會成為革命性的應用軟體,面向內容創作者會有極大的正面影響。(語音辨識實現內容跨語言、文字轉語音改變傳統配音流程...etc)
【亮點二】數位人類 Omniverse Avatar:下個世代的聊天機器人、智慧助理
在本次的 Keynote 上,黃仁勳與自己的數位替身對話的一幕令人印象深刻。其實早在 GTC 2021 時,黃仁勳就展示過這個專案,當時還引起了不小的轟動,但這次數位替身看起來更加活靈活現了。
數位人類
黃仁勳的數位替身以及類似的應用,我們稱其為數位人類(digital-human),它是由人工智慧驅動的的類人虛擬生物,能夠與人類進行對話。
近年來大型企業先後投身並致力於開發數位人類。NVIDIA 在 AI、高速運算、電腦繪圖的領先地位,讓其成為真正將數位人類帶到大眾視野的企業,大家也得以見到下一個世代的智慧助理、聊天機器人的樣貌。
實現數位人類的基礎牽涉多個技術核心,例如:
- 語音辨識
- 自然語言理解
- 自然語言生成
- 語音生成
- 語音驅動的數位人類動畫產生(臉部表情、肢體動作)
- 模擬物理世界光線的渲染效果
下圖是 NVIDIA 所揭露的兩個數位人類應用的架構,自然語言處理使用 RIVA 框架,而數位人物的動作、行為、渲染則是 Omniverse 的各種強大工具:Audio2Face、Audio2Gesture、Ray tracing…等等。
Audio2Face
只需輸入音訊給 Audio2Face,即可模擬出虛擬人像講話的樣子。
Omniverse Animation
Omniverse Animation 定義並管理所有肢體動作,例如視線, 手臂擺幅等等。
NVIDIA Material Definition Language (MDL)
MDL 是由 NVIDIA 自家開源的材質定義語言,可以讓所有的資產 (Asset) 渲染的更加真實,例如讓下圖的夾克擁有皮革的反光感。
NVIDIA 表示 Omniverse 中將會包含一個專屬製作數位人類的框架:Omniverse Avatar,是一個令人振奮的消息,但透過觀察上述兩個案例的架構,兩者使用的自然語言模型都是 Megatron 530b;顧名思義是擁有 530,000,000,000 個參數的超大型人工智慧語言模型,一般用戶不可能使用,而較可能在大型的專案上看到它的應用。
【亮點三】自動駕駛系統:NVIDIA Drive
事實上 GTC 2022 Keynote 的內容大部分在 GTC 2021 上都有出現過,只有 NVIDIA Drive 是第一次正式登場。
NVIDIA Drive 是 NVIDIA 的自駕車系統,在會議中,NVIDIA 示範緊密整合的 NVIDIA Drive,一名 NVIDIA 的員工進一步以自動駕駛模式上路。
個人認為它是全場最吸睛的部分;因為它宣告全自動駕駛車的時代即將到來,技術展示也讓人留下深刻印象。
NVIDIA 的自動駕駛車煉成術!!
黃仁勳將現行機器人開發的流程總結為 4 大項,也是他們用於 NVIDIA Drive 的開發流程:
- 蒐集並且產生實際路況資料
- 建立人工智慧模型
- 使用數位孿生模擬
- 機器人控制
蒐集並且產生實際路況資料
蒐集並產生訓練 AI 模型使用的實際路況資料,NVIDIA 使用了 DeepMap HD、人工標籤、Omniverse 產生的合成資料。
DeepMap HD 是由搭載高精度感測器的車隊所蒐集的資料所建構。這些車隊行駛於自駕車路線並且繪製地圖,也會製作能廣泛應用的地面實況圖。其應用範圍包括自駕計程車、貨運車輛和自駕卡車,NVIDIA 正在製作地球量級的 DeepMap HD 以探索新的演算法,並且在佈署到車輛之前在虛擬地圖中進行測試。
合成資料是以電腦模擬或演算法產生出且含有註釋資訊的合成資料,用來取代真實環境資料。使用合成資料有諸多好處,其也被視為未來 AI 開發不可或缺的助力,並且專家估計在 2030 年時,AI 的訓練資料將會高達 60% 出自合成資料。
NVIDIA 即用 Omniverse 中的工具「Omniverse Replicator」自動產生了各種自駕車常用的資料與標籤。
NVIDIA Drive 的基礎:Hyperion 8
Hyperion 8 是 NVIDIA 自駕車的硬體架構,也是NVIDIA Drive 系統的基礎。Hyperion 8 的組成包含:感測器、網路、自駕車電腦、智能助理人工智慧電腦、任務紀錄器、網路安全系統。
Hyperion 8 有著Level 3 輔助駕駛、 Level 4 自動停車與 AI 智慧駕駛座等功能,即將在 2024 年搭配於 Benz 車款上市。
數位孿生的模擬
自駕車在部署之前,需要先進行大規模開發,並在多種情境下進行測試。然而,要在真實世界中駕駛到必要的里程數需要耗費大量時間與資金,而且基本上不可能遇到罕見且危險的情境。
NVIDIA DRIVE Sim™ 可透過符合真實物理的模擬平台建造數位孿生,解決這些挑戰,將在真實世界中駕駛的需要降到最低。
Drive Sim 中的數位孿生與現實中的車輛本體同步,數位孿生得到來自車輛本體各種感測器的資料以及整個駕駛過程的環境狀態,模擬實際的駕駛體驗。甚至,還能夠透過 AI 生成駕駛過程當中沒有發生的極端事件。
NVIDIA Drive 與 Avatar 的終極融合 !
在 Keynote 影片中還演示一段 NIVIDA 與 Avatar 結合的技術結晶,影片如下:
下方畫面顯示自駕車找到目標人物後,自動停駛在路邊,我們可以發現中間的面板有將目標人物的人臉框出來,這表示在車子行進過程中隨時隨地都在進行人臉偵測,以便尋找目標。
下圖顯示駕駛視線看像左前方,並問 Avatar 說 「What building is that there ?」,Avatar 隨即回答該建築物的名稱為「San Jose center of Performing Arts」,右上角有模型隨時偵測駕駛的視線,Avatar 即可了解駕駛所問的問題如何回答。
請大家從影片 1:07:06 開始觀看
GTC 2022 Keynote 傳送門
關於數位孿生在各行各業的應用,在 Keynote 當中還提到很多精彩的案例,但礙於篇幅而只能忍痛選出我最喜歡的三個亮點。想要更多創新科技帶來的啟發,自己聽聽老黃怎麼說吧!
元宇宙降臨 GTC 2022! 盤點五個開發者要開始元宇宙應用不能錯過的議程!!
正火熱進行的 GTC 2022,有著不少元宇宙相關的議程,從元宇宙的基礎觀念、實做解析,再到世界前沿的成功應用案例,我們整理出 5 個開發者想要入門元宇宙應用開發所必聽的議程。請見此連結,進入元宇宙的大門吧!
關於我們
「MetAI」是由 Metaverse 與 AI 融合而成的單字,同時意味著 Met (遇見) AI (人工智慧),是以人工智慧以及元宇宙為主要研究主題的社群,立意在於推動創新科技應用以及產業數位轉型。
關注我們
若我們的內容對您有幫助,請不吝幫我們分享、按讚。您的反饋會讓我們知道自己的內容方向是否有價值、能否做得更好,也讓更多需要的朋友也能獲得有用的知識。