AI創意之源: Sora再掀科技創作新浪潮─資策會 FIND科技報─智邦公益電子報
enews.url.com.tw · November 14,2024AI創意之源: Sora再掀科技創作新浪潮
FIND研究員:邱育生
2024年2月15日,OpenAI公開發表了一項名為「Sora」的AI影片生成技術,這是可由文字驅動的AI影片生成模型。這項具突破性的影片生成技術,可以根據用戶輸入的文字描述,快速生成逼真的影片,並精準控制影片的細節,包括人物、場景、動作和表情等。更甚者,還可以依循用戶所指定的電影風格(如燈光、顏色和攝影機角度)來進行影片生成。
令人驚豔的AI影片生成技術問世
Sora 的問世,無疑為生成式AI技術在影片製作領域跨出一大步,並帶來廣泛的應用前景。自2023年的 ChatGPT 到2024年的 Sora,各種形式的 AI 應用不斷湧現,從語音生成、圖片生成到音樂生成,甚至是影片生成,都展現巨大的商業價值。這些技術的蓬勃發展也引發廣泛討論,許多文創與科技從業者都在思考,隨著這些技術的普及,是否會對工作帶來影響?傳統的影片製作過程往往需要耗費大量時間、人力、費用,而由文字驅動影片生成的AI技術,將能夠顯著簡化既有過程,降低影片產製成本,並大幅提高製作效率。
Sora運作原理概述
早在Sora問世之前,各大科技巨頭(如:Meta、Google等)與AI新創均爭相角逐AI 影片生成技術發展,然而與圖片生成相比,影片生成技術發展上將面臨著兩大挑戰:「影格銜接連貫性」及「物理變化合理性」。
從OpenAI官網資料得知,Sora是採用了Diffusion Transformer架構,所以在解析Sora運作原理前,我們須稍微回顧一下ChatGPT的運作機制。在ChatGPT的文本生成的過程中,「Token」是文本的基本單位元(其代表著一個字詞或子詞),模型會根據已生成的 Token 預測下一個 Token,然後將其添加到生成的文本序列中。透過不斷重複這個過程,模型就能夠生成連貫且自然的文本。
Sora之所以會採用Diffusion Transformer架構,其主要的考量就是希望能夠借助Transformer模型的特性來解決「影格銜接連貫性」的技術問題。而在Sora的影片生成過程中,「Patch」是影片的基本單位 (其代表著在時間和空間上對影片進行分割後的一個小區塊)。在 Diffusion Transformer 中,模型使用 Transformer 架構來處理這些 patch。這意味著模型不僅能夠捕捉圖像或影片中單個 patch 的特徵,還能夠考慮它們之間的相互關係。這樣做的目的是為了更有效地處理圖像或影片數據,並更好地理解它們的結構和內容。
圖1:視覺資料轉換示意圖
圖片來源:OpenAI
我們可以試著用動漫製作來進一步理解Sora的影片生成,首先Sora運用了Diffusion的特性來進行單一影格(圖像)生成,於生成的過程中同步搭配Transformer的特性來控制圖像上各顯示區塊的關聯,並擴展至讓時間序列上各個影格(圖像)變化也具備了時序關聯,這也是為什麼由Sora所生成的影片會如此絲滑柔順的主要原因。Sora借助大量的訓練數據將文字轉換為影片,這些數據基本上是帶有描述性標題的大量影片。在從用戶那裡接收到提示後,Sora 使用對自然語言的深入理解來產製它。
影片生成多元化支援
除了透過文字提示來進行影片生成外,Sora 還可以從圖像和其他既有的影片來生成。該模型可以將靜止圖像的內容動畫化,製作成短片。此外,Sora 亦可針對既有影片向前/向後進行時間序內容延展,這意味著它將可以在主影片中添加新場景,且延展的部分與主影片正確匹配。更甚者,Sora 還可以做到將兩個具有不同主題的輸入影片,搭配平滑的運鏡轉場技巧無違和地組合成一個新影片。Sora將可以幫助電影製作快速生成場景、特效和動畫,從而加速製作過程。
同時,AI生成的影片可以啟發電影製作人和導演的創意,為他們提供新的靈感和想法,提供不同面向的創作靈感擴展,幫助製作人探索不同的視覺風格和故事情節。而就視覺特效來說,AI技術可以生成過往無法實現或過於昂貴的視覺效果和特效,這將使電影製作能夠創造出更加驚人和引人入勝的視覺效果,提升電影內容的品質。
當影片生成不僅是影片生成
不論是文本、圖片、聲音或是影片生成,其技術的核心還是在於「理解」。Sora除了理解用戶提示外,模型還進一步嘗試理解到影片中每個物體需如何存在並與物理世界互動(如:光線的反射、水面上的漣漪變化等),也就是本文一開始提到的技術挑戰:「物理變化合理性」,唯有理解真實世界的物理互動,才能將影片便得更加「逼真」。一打開Sora的技術說明文件,「Video generation models as world simulators」諾大的標題便顯示在開頭,其意味著開發團隊想做的不單只是影片生成這麼簡單。
如同Sora官網上所提到:「我們正在教導AI理解和模擬運動中的世界,目標是訓練模型來幫助人們解決需要與現實世界互動的問題」。儘管在Sora推出不久後,圖靈獎得主- Yann LeCun便表示Sora所理解的並不是真正的物理世界,認為其技術發展將無法準確地預測到下一秒的變化。但毫無疑問地,Sora正朝著模擬物理世界的道路邁進。倘若未來的技術發展真的可以作到模擬各種物理、生物和社會系統的行為和互動,這將有助於更好地理解世界的運作方式,甚至是預測未來的趨勢和事件。
封面圖片來源:https://openai.com/research/video-generation-models-as-world-simulators
參考資料來源:
1.視覺資料轉換示意圖:https://openai.com/research/video-generation-models-as-world-simulators
智慧公共服務:塑造未來的科技力量
FIND研究員:王楨芸
在一個由科技驅動的時代,公共服務的轉型已經成為社會進步的焦點。 從利用人工智慧的力量到使用先進的GPS科技,我們的目標是創造一個更高效、反應更靈敏的系統,讓所有人都受益的智慧城市,並且深入了解智慧公共服務對政府和社區服務的未來發展至關重要。這些服務利用先進的數據分析和人工智慧(AI)提升效率、反應能力以及整體服務品質,致力應對多種挑戰,為更美好的未來帶來機會。
智慧公共服務的優勢不僅在於提高效率和成本效益,更加強了公民與政府之間的能力。具有下列優點:
- 預防災害:人工智慧的預測能力不僅用於災害應變,也延伸至災害預防。安大略電力公司利用人工智慧提前檢測到潛在的渦輪機故障,節省了數百萬美元。
- 減少碳排放:智慧公共服務改善製造流程、降低碳排放,有助於緩解氣候變遷問題,對未來至關重要。
- 打擊人口販運:人工智慧和數據分析可追蹤非法資金和通訊,打擊人口販運等問題。此一技術可協助執法部門追蹤資金,預防犯罪。
- 改善服務提供:無論是社會福利、醫療保健或緊急應變,公共服務得以更有效提供,作出更快、更佳的決策。
- 公民賦權:公民透過決定分享哪些資訊,更好地掌控個人資料。愛沙尼亞在資訊互聯方面為公民賦權提供了典範。
智慧公共服務的應用案例
人工智慧在緊急應變中的運用是智慧公共服務的一個突出範例。特別是在 911 系統中,利用先進的 GPS 定位技術,精準跟蹤超過 80% 美國居民所在的城市區域,即時定位求救者在複雜建築中的位置,這可避免失去黃金救援時間。
美國聯邦通訊委員會要求 911 系統在 3 公尺範圍內 80% 的時間內確定垂直位置。NextNav 公司與 GeoComm 共同合作,精確轉換定位測量為可訪問的位置,包括建築名稱、街道地址,甚至樓層和房號。這項改善對城市緊急應變而言,是一次遊戲規則的改變。城市地區常常屏蔽傳統 GPS 訊號,這使得 NextNav 的技術變得至關重要,其地面發射器和強大的訊號強度確保了準確的位置資訊。上述技術展現了創新如何影響未來的公共服務。
圖一: NextNav城域覆蓋部署示意圖
資料來源: https://www.itsinternational.com/its1/feature/tollers-make-way-nextnav-muscles-902-928mhz-spectrum
智慧公共服務進步與未來挑戰
智慧公共服務的發展是驅使城市前進的重要一步,然而隨著這項技術的成長,我們也需正視眼前的挑戰,包括資料共享、技能培訓和標準制訂等皆是確保此領域繼續健康發展的關鍵。同時,智慧公共服務實施過程中也必須嚴謹面對例如資安、公眾信任等重要議題。政府在推動人工智慧應用時必須謹慎行事,以確保技術使用的公平和道德,讓這項技術能造福社會才是最大的重點。
封面資料來源: https://unsplash.com/photos/an-airplane-flying-over-a-city-with-wind-turbines-2KoSRmeKfqc
參考資料來源:
- https://www.zdnet.com/article/ai-at-the-edge-exciting-times-ahead-for-5g-and-the-internet-of-things/
- https://www.mckinsey.com/industries/public-sector/our-insights/the-potential-value-of-ai-and-how-governments-could-look-to-capture-it
- https://insights.raconteur.net/building-a-smarter-state-and-improving-public-services-with-connected-data#building-a-smarter-state-with-connected-data
- https://docs.aws.amazon.com/wellarchitected/latest/government-lens/artificial-intelligence-in-the-public-sector.html
我不再信任你?!「零信任」架構下之應用程式開發原則
FIND研究員:陳建宏、劉仲祥、黃盈婷 隨者資訊服務廣泛的應用在生活及商務環境中,企業已經變得越來越數位化,資安的議題亦層出不窮,三不五時會聽到某電商業者的網站被駭客入侵,盜取客戶資訊;或取得使用者的登入資訊,在網路內部恣意遊走,散播勒索病毒、取得更高的系統權限,對企業的傷害持續增加。 >
旅遊平台搶AI商機
FIND研究員:陳湘怡 人工智慧(AI)已成為眾所矚目焦點,新興產業吸引了眾多投資者的關注。隨著生成式人工智慧的蓬勃發展,各行各業對AI的應用更加廣泛。最近,OpenAI宣布推出第三方插件服務,其中最大優勢之一是能夠根據特定主題快速回覆。>