以AI生成3D模型技術之觀察與未來展望─資策會 FIND科技報─智邦公益電子報
enews.url.com.tw · November 14,2024以AI生成3D模型技術之觀察與未來展望
FIND研究員:郭力瑋
近來AI影像生成技術可謂叱吒風雲,僅需隻字片語就可以生出大致符合使用者所需的圖像,文字描述得越詳細就可以越接近使用者所想要的圖像,雖然還有一些小缺陷,但目前來看技術已經趨於成熟,大致上可以滿足商業或個人使用。
圖1:2D影像生成技術
資料來源:MyEdit線上影像生成工具網頁
2D與3D的差異
而以上說的僅是2D影像生成的部分,若是牽涉到3D模型生成的話,所面臨的問題更難也更複雜。一般來說,如果要生成一隻貓咪的2D圖片,AI的訓練資料就僅是各種平面的貓咪照片,網路上任意蒐集就可獲得成千上萬張各種品種、體型、花色及各種角度的真實貓咪照片。相對來說,訓練資料取得並不難,最後只要使用者輸入品種、體型、花色就可以得到想要的貓咪圖片。
但若要生成3D模型,訓練資料則必須是3D網格體資料。3D網格體的傳統製作方式為透過建模軟體人工手繪,後來進步成雷射掃描,取得成本遠較2D資料為高,產量也有限,再加上三維空間的相關背景知識遠比二維平面來得複雜,又更增加相關演算法的設計與機械學習設計的難度。
光是3D網格體還不足以構成一個完整的3D模型,網格體僅是描述外型的資料,貼上貼圖後才能看到有色彩的3D模型,因此也要包含貼圖生成相關的訓練與演算法設計。
圖2:一隻海豚的網格體
資料來源:維基百科(多邊形網格)
【3D內容生成技術廠商介紹】
LATTE3D
LATTE 3D一詞原是指一種拿鐵咖啡的立體拉花技術,刻意將奶泡用較久的時間打到奶泡呈現高硬度,隨後將堅挺的奶泡鋪在拿鐵咖啡之上,再用牙籤等工具將其雕刻成各種可愛的動物立體模型,在日本曾經風靡一時。其作業流程相當類似於3D列印技術,但其實打得過久的奶泡味道苦澀,不能為咖啡的味道帶來加分,僅供觀賞用途。
圖3:LATTE 3D立體拉花
資料來源:THE JAPAN NEWS
知名GPU大廠NVIDIA所發表的LATTE3D技術,使用方式就像已經日趨成熟的2D影像生成一樣,只要輸入文字即可生成3D模型,且得益於現代高性能GPU的龐大算力,過去需要數小時才能生成一個3D模型,現在僅要數秒內就可做到。
只不過目前生成的結果大多比較單調,沒辦法像如日中天的2D生成技術一樣可以產生多采多姿甚至以假亂真的圖像,如果是已經用習慣2D生成的人突然來用LATTE3D肯定會大失所望,無法生成太複雜的圖像。比如要圖像中人物表達出悲喜哀樂等或做出複雜的動作目前都還不行或效果有限,僅能滿足一部分3D建模師的需求,生成模型後還需加以打磨才有辦法實際拿來使用,若是面對廣大一般民眾,恐怕商用價值還不太足夠。
圖4:LATTE3D生成的模型
資料來源:NVIDIA官網
Meshy
Meshy是一個目前已經上線的強力3D內容生成服務平台,除了可以直接用文字生成3D模型,亦能用2D圖片來生成3D模型,還有就是尚未擁有貼圖資料的空白網格體生成貼圖,皆為實用且強大的功能。
圖5:Meshy生成的模型
資料來源:Meshy官網
Meshcapade
Meshcapade特色強烈,可以由文字生成細膩的人物模型,當然人物模型的骨架是事先預備好的,屬於有大量人工干預的生成技術,支援各大知名電玩遊戲引擎、3D建模軟體,人物動畫功能豐富,可以讓遊戲設計輕鬆擁有以往需要高成本才能製作出來的人物動畫。
圖6:Meshcapade生成的人物模型
資料來源:Meshcapade官方影片
Avaturn
Avaturn專攻頭像生成,拿起手機幫自己拍多角度頭像照片,就可以由這些照片為素材生成逼真的頭部模型。平台中內建人體系統,除可以自由調整體型,還可選擇各種服飾、配件、髮型,同樣具有大量人工干預的生成技術,備有可以套用的模板,生成的模型同樣支援各大遊戲引擎與建模軟體。
圖7:以多個角度的自拍照來生成自己的頭像
資料來源:Avaturn官方影片
結語
不若2D生成技術已經有龐大的時間投入與訓練資料,3D生成技術目前仍處於半生不熟的狀態,不過已經可以滿足許多製作遊戲或動畫的專業人士使用,生成出來的3D模型還需要有相關背景的建模師好好打磨一番,動畫也需要動畫師去把多段生成出來的動畫拼接後再做微調才能使用,否則品質堪憂。
但儘管如此,目前3D生成技術已經能幫小型遊戲/動畫工作室省下大筆資金,去做出以往需要龐大資金才有辦法做出的內容,小成本製作出接近3A等級的大製作已經不再是夢想。
得益於3D的特性,光影效果肯定會是一大強項,2D生成技術的光影效果肯定難以匹敵。不論生成的模型如何,3D空間的光影效果相關技術早就已經相當成熟且可以假亂真,並不需要由AI生成,每個遊戲引擎與建模軟體早就有現成的強大即時光影技術可以使用,假若未來3D模型與動畫生成更加成熟,配合上本來就已經很強大的光影效果,即可實現對2D生成技術的彎道超車。
圖8:強大的3D光影效果
資料來源:維基百科(光線追蹤)
不過,3D生成還有一大隱患,由於3D世界遠較2D複雜,所需的GPU算力肯定是數倍甚至數十倍,這將大大提高平台的建置成本,即便技術成熟,恐怕也要等成本足夠便宜才有辦法普及。
封面圖片來源:https://blogs.nvidia.com.tw/2024/03/22/latte-3d-generative-ai-research/
參考資料來源:
2.維基百科(多邊形網格):https://zh.wikipedia.org/zh-tw/%E5%A4%9A%E8%BE%B9%E5%BD%A2%E7%BD%91%E6%A0%BC
3.THE JAPAN NEWS:https://japannews.yomiuri.co.jp/features/delicious/20230502-107068/
4.Meshy 3D圖像生成平台:https://www.meshy.ai/
5.Meshcapade 3D圖像生成平台:https://meshcapade.com/
6.Meshcapade官方youtube影片:https://www.youtube.com/watch?v=qVYelkFkkTM&t=23s
7.Avaturn 3D圖像生成平台:https://avaturn.me/
8.Avaturn官方youtube影片:https://www.youtube.com/watch?v=rSb0Io92_R8&t=47s
9.維基百科(光線追蹤):https://zh.wikipedia.org/zh-tw/%E5%85%89%E7%B7%9A%E8%BF%BD%E8%B9%A4
從AI PC到AI Display,AI應用新紀元
FIND研究員:陳弘鈞
近年來,隨著人工智慧(AI)技術的快速發展,從AI電腦(PC)、AI手機、到AI顯示器(Display),AI技術已經成為生活中愈來愈難以分割的一部分。例如,在CES 2024上,三星宣布了他們的「AI for All」願景,將AI技術應用於各種產品,從智慧電視到智慧冰箱,從智慧機器人到智慧空間,無所不包。這些應用案例可歸納至AI Display,展現AI在生活中的潛力,從優化娛樂體驗到改善家庭管理,AI的應用正在不斷擴展。
從AI PC及AI手機談起
AI PC和AI手機是指可以在本地端運行AI模型的設備,由於搭載了專門的神經網絡處理器(NPU),而無需依賴網路連接、不涉及雲端運算,即可在設備上執行複雜的AI任務,提供快速便捷的AI體驗。
AI PC和AI手機的核心元件-神經網絡處理器(NPU)是專門設計用於運行神經網絡模型,相對於傳統的圖形處理單元(GPU),更高效且能耗更低。NPU的出現使得AI模型在設備上運行更加流暢,同時也降低了設備的功耗,這對於移動設備尤其重要。
另外,大型語言模型(LLM)的崛起也推動了AI PC和AI手機的發展。如ChatGPT和DALL-E等LLM模型的計算需求量巨大,需要強韌的硬體才能支援本地端運算。而NPU的出現則為大型語言模型的應用提供解方,使得上述模型可以在設備上運行,而不受網路速度和連接的限制。
AI PC的競爭態勢與應用擴散
隨著AI PC和AI手機的興起,技術公司之間的競爭也日益激烈。像Intel、AMD、高通和蘋果等公司紛紛投入研發NPU,彼此間存在競合關係,且有跨界合作,例如Meta與高通攜手開發專為手機和PC優化的LLM模型。事實上,AI PC和AI手機將在各領域得到更廣泛的應用,從智慧家居到醫療保健,AI技術將為我們的生活帶來更多便利和效率。
各式裝置AI化
乘著這股態勢,南韓三星近期發布的AI手機搭載自家的生成式人工智慧模型:三星高斯(Samsung Gauss),強調只要透過簡單指令,就能活用語言生成模型,讓手機協助總結報告重點、撰寫完整的電子郵件、進行多語言翻譯。在CES 2024上,三星更公布「AI for All」願景,讓AI從手機「擴散」到多元產品。
以AI電視為例,三星將Neo QLED 8K電視搭載內建的AI處理器 NQ8 AI Gen 3,除了可以自動升級低解析度內容,更能自動偵測正在觀看的球類運動類型,以深度學習清晰追蹤球的軌跡,讓觀眾更容易掌握球的動向。另外,可透過AI分析語音並進行背景降噪,甚至支援手語控制,嘉惠聽障人士。
另外,在AI機器人方面,三星也將旗下的滾動式AI陪伴型機器人Ballie升級,讓Ballie除了可與其他智慧設備互動,更能依需求投影圖像或影片,方便使用者查找生活資訊。
在AI冰箱方面,三星將四門的Flex冰箱搭載AI Family Hub+,利用冰箱內鏡頭辨識進出冰箱的食物(最多約33種),並提供建議食譜;同時,還能進行「按日期食用」設定,讓冰箱在食材快過期前發出提醒,杜絕資源浪費與過期食用的食安風險。
在AI空間方面,三星強調其SmartThings Hub智慧家庭平台,除了可偵測出異常狀況(如跌倒)並通知照護者,亦可語音命令遠端汽車執行功能,如提前加熱座椅等,甚至透過車輛控制家居功能。
AI Display將是關鍵
即便愈來愈多裝置開始搭載生成式AI,裝置與使用者的互動模式卻多半是透過螢幕(即顯示器)互動,因此AI裝置背後的關鍵,更多是在於AI Display的內容呈現與互動方式,在CES 2024展上百花齊放。
以視覺呈現為例,宏碁開發的SpatialLabs筆電系列主打裸視3D顯示,搭載AI驅動的應用程式,讓設計工作者裸眼就能觀賞3D立體影像或者進行3D設計。另外,三星的Micro LED透明電視將LED晶片操作電路直接黏合至玻璃上,降低用戶在傳統顯示器上可能遭遇的亮度損失;模組化設計允許用戶根據空間恣意調整顯示器形狀、尺寸與比例。
在健康應用上,NuraLogix推出的Anura MagicMirror 智慧魔鏡,讓體驗者進行臉部掃描30秒後,即可運用皮膚透視光學成像的專利技術來分析臉部血流,並與機器學習演算所支援100個健康參數比對,提供多樣健康資訊、心理壓力及疾病風險分析,適用社區關懷據點、候診室、養老院、健身中心等場域。
圖1:AI Display智慧魔鏡
資料來源:科技新報、NuraLogix
另一方面,呼應自駕車/智駕車崛起的趨勢,智慧座艙亦是AI Display應用的重點戰場:
圖2:AI Display智慧座艙
資料來源:科技新報、友達科技公司
Google表示將可透過Android Auto和Google地圖,提供電動車的即時電池資訊(甚至是到達目的地時的剩餘電量預估),適用於採用Google built-in的車款,並預計將Chrome瀏覽器加入Volvo、Polestar等車系。
福斯則宣稱將成為首家標配ChatGPT的車廠,讓車主可依語音指令直接進行操控,例如表示自己有點冷時,汽車可自動調高空調溫度;表示想吃特定料理時,汽車可自動搜尋附近的對應餐廳。
針對智慧座艙,友達則表示,將整合Micro LED智慧座艙,除了主打有55吋曲面AmLED顯示器橫跨雙A柱以減少視覺死角外,更將瞌睡感測器設於儀錶板的車速表附近,並將抬頭顯示器投射內容於擋風玻璃上提供交通指引;針對乘客部分,則以互動式透明車窗、可捲式後座娛樂顯示器提供乘客娛樂。
群創則主打Micro LED隱藏式顯示器,除了透過Active Privacy View讓副駕駛娛樂時正駕駛不會分心,亦導入可3秒旋轉90度的可動螢幕顯示器,甚至導入於互動才有畫面的隱藏式木紋顯示器以及透過皮革仍可觸控即呈現畫面的透光皮革顯示器,讓顯示器不再是全黑而更有質感。
從AI PC到AI Display的挑戰
隨著AI PC、AI Display、甚至AI Everything大舉跨入你我的生活,即便帶來大量的便利,人們首要擔憂的多半是隱私和安全問題。因此,各國政府如何推動相關法規與時俱進,規範業者在個人資料收集、處理、利用上獲取消費者同意、資料數據安全控管,同時將在用戶同意的基礎下進行資料交易所衍生收益如何回饋給資料所有人的機制設計等,都是未來AI大數據累積及生成式AI演進速度的關鍵。其次,AI倫理的辯論越來越常被提起,牽動各項應用的發展方向。在AI進化與數據保護主義之間如何取捨,考驗全球政府與產業的智慧。
AI Everything的未來展望
隨著AI技術發展日新月異,AI將成為日常生活中重要的一部分,提供更加智慧、個人化的服務和體驗,帶動生產力的提升,並增進視覺表達、概念溝通、甚至創作的效率。即便上述可能衝擊部分既有工作,但一如所有的創新科技,該擔憂的不是工作是否被取代,而是如何站在AI的肩膀上,善用AI工具提升效率,並開創無法被取代的創意,讓AI Everything成為生活夥伴,一同邁向充滿機遇的未來世界。
封面圖片來源:https://www.bnext.com.tw/article/78010/samsung_202401
參考資料來源:
- https://www.bnext.com.tw/article/78010/samsung_202401
- https://technews.tw/2024/01/12/ces-2024-notes/
- https://technews.tw/2024/01/09/samsung-ces-2024/
- https://technews.tw/2024/01/12/this-magicmirror-analyzes-facial-blood-flow-to-monitor-vital-signs/
- https://technews.tw/2024/01/10/ces-2024-auo-micro-led/
- https://www.innolux.com/tw/media_center/news_list/news.html?p=2043
NFT已死?!應用趨勢仍不斷推陳出新
FIND研究員:蕭宇程 隨著數位資產和區塊鏈技術快速發展,非同質化代幣(NFT)作為一種創新的數位資產形式,正日益受到全球市場關注。NFT的獨特性和可驗證的數位稀缺性,使其成為藝術品、收藏品、遊戲資產、數位身份以及更廣泛應用的理想載體。>
創新AI醫療技術應用發展
FIND研究員:呂冠儀 隨著科技不斷發展,人工智慧(AI)技術在醫療領域中的應用正日益受到關注。現代醫療系統產生龐大數量的醫療數據,包括來自各種診斷工具的影像數據、患者歷史記錄、治療計劃等,這些數據需要被即時收集、處理和分析,以支持醫生決策和患者治療。>