擴散模型 - 現代AI圖像生成的大躍進─資策會 FIND科技報─智邦公益電子報
enews.url.com.tw · January 09,2025擴散模型 - 現代AI圖像生成的大躍進
FIND研究員:楊聿寧
今年,隨著生成式AI技術的推陳出新,文字生成圖像的生成式AI迅猛成長,大大提升了AI模型所能創造的藝術保真度。雖然像Stable Diffusion和DALL-E 3這樣的模型具有爭議性,但包含一些視覺創作平台已然採用基於擴散模型的生成式AI來做生成創作,甚至新創品牌用來構思發想新的產品。
然而,這些在模型背後的技術遠遠不僅能做生成藝術的創作,這種被稱為「擴散模型」的技術,被一些勇於嘗試的研究團隊用來創作音樂、合成DNA序列,甚至發現新藥物。
【擴散技術觀測】
那麼,回過頭來,擴散到底是什麼,為什麼它比之前的技術有了如此迅速的進步?並備受商業上期待,值得好好探討以及它如何隨著時間的推移,成為今日最具勢頭及影響力的AI生成技術。擴散的成就還在延續,隨著時間過去,技術上的改進還在不斷的推陳出新,但在過去一兩年間因其開源性帶來了爆炸性的成長。
圖1 基於stable diffusion模型搭配Civitiai訓練模型的寫實model
資料來源:https://blog.256pages.com/best-3-realistic-model-stable-diffusion/
【擴散的誕生】
或許幾年前流行的Deepfaking apps - 在臺灣鬧得沸沸揚揚,將人的肖像插入既有的圖像和影像當中,以創造看似真實的假象替代。而這些應用了一種稱為生成對抗網絡(GANs)的AI技術。GANs由生成器和判別器組成:生成器從隨機數據生成合成樣本(例如圖像或影像),而判別器嘗試判別生成的樣本以及來自數據庫模型的原始採樣。
然而,GANs在實務上存在一些缺陷,由於架構的設計,生成器和判別器的模型同時訓練在本質上是不穩定的,有時生成器會“崩潰”並輸出大量看似相似的樣本。此外,GANs需要大量且多樣性的數據庫和運算能力來支撐運行和訓練,這會使得GANs陷入瓶頸。
【擴散的運作原理】
擴散的靈感來自物理中的一個自然過程,如流體從高濃度區域移動到低濃度區域,如同墨水滴入水中後的暈開過程。擴散模型受到了非平衡熱力學中的擴散過程所啟發,當中過程是隨著時間的推移增加了系統中的entropy或者說隨機性。可以看成氣體在流動中的填滿整個空間。而像圖像這樣的數據可以透過隨機添加雜訊而轉化為均勻分佈無意義圖像,然而不斷添加雜訊來漸漸破壞數據的結構,直到只剩下雜訊為止。(值得一提的是,雖然是隨機添加雜訊但其隨機性還是有限制,是基於前一步進行隨機性的雜訊破壞。)
圖2 Diffusion
資料來源:Science facts.net
在物理學中,擴散是自發的且不可逆的現象,而在滴入水中的墨滴無法聚攏。但機器學習(ML)中的擴散模型本質是在學習一種“反向擴散”過程,從以被雜訊篒後的數據中恢復,從雜訊化中得到生成數據的能力。
圖3 Diffusion Process & Denoising process
資料來源:medium.com - GGWithRabitLIFE
擴散模型2015年由史丹佛大學發表論文至今已然存在了近十年。但由OpenAI最近推出的一項名為CLIP(Contrastive Language-Image Pre-Training)的創新使其在日常應用中變得更加實用。CLIP對數據進行分類例如圖像以基於文字敘述,例如"空中一顆流星的素描”的敘述下評分其擴散過程的每一步,評分是基於其在給文字敘述的提示中被分類的可能性有多大。隨著擴散模型從雜訊中重建數據,它慢慢地接近匹配文字提示。一個有用的比喻就像一位大師級的木雕家告訴學徒如何雕刻一塊原木,從何處下刀。CLIP引導著擴散模型朝著給出更高分的圖像方向前進。
OpenAI將CLIP與生成圖像的模型DALL-E同時推出。從那刻起,它已經被應用於DALL-E的後繼版本DALL-E3,以及像Stable Diffusion這樣的開源替代方案。
圖4 OpenAI Dall-E3
資料來源:mspoweruser.com
那麼,CLIP引導的擴散模型能做什麼呢?嗯,正如前文所敘述,它們在生成藝術方面的成就已然成果豐碩。從生成的圖像其逼真的藝術到幾乎任何藝術家風格的繪畫技巧。然而其模型的應用不僅於此。
圖5 Dall - E3 生成創成(頭髮凌亂的女性, 使用GOPRO自拍)
資料來源:Bing.com - user generate
研究人員還嘗試使用引導擴散模型來創作音樂。Harmonai是一個由Stability AI提供資金支持的組織,他們推出了一個基於擴散的模型,通過訓練現有歌曲的數百小時,可以輸出音樂片段。最近,開發者Seth Forsgren和Hayk Martiros創建了一個名為Diffusion的業餘項目,該項目在音樂頻率上的頻譜圖訓練的擴散模型,進而生成曲調。
圖6 Diffusion - 頻譜圖
資料來源:m.cnbeta.com.tw
除了音樂領域之外,有實驗室正試圖將擴散技術應用於生物醫學,希望發現新的疾病治療方法。初創公司Generate Biomedicines和華盛頓大學團隊訓練了基於擴散模型,以生成具有特定性質和功能的蛋白質設計。他們已經取得了一些成果,華盛頓大學小組設計的模型能夠找到一種與現有藥物相比更好地附著於副甲狀腺激素的蛋白質。
另一方面在Stability AI支持的OpenBioML,這是基於一個去中心化的協作研究機構,研究開發一種稱為DNA Diffusion的擴散模型,用於生成特定細胞類型的調控DNA序列,這些序列是影響生物體內特定基因表達的核酸分子片段。DNA-Diffusion如果一切按計劃進行從文字敘述來下指令生成調控DNA序列,例如“一個能在X細胞型中將基因最大程度地表達的序列”和“在肝臟和心臟激活基因的序列,而不在大腦中激活”。
【應用效益評析】
對於擴散模型來說,未來是無限可能的。目前已將其應用於生成影像、圖像以及合成語音。但擴散會不會被更高效、更高性能的機器學習技術所取代,就像GANs被擴散模型所取代一樣。就目前而言3D影像因其數據庫擴展不易導致有其侷限性,以及如何達到更穩定的擴散都是往後的著力點,但在現今的架構,擴散模型毫無疑問是可廣泛利用的一門的技術。
封面圖片來源:
參考資料來源:
2.https://blog.256pages.com/best-3-realistic-model-stable-diffusion/
4.https://www.sciencefacts.net/diffusion.html
5.https://hot.cnbeta.com.tw/articles/music/1335667.htm
6.https://mspoweruser.com/how-to-use-openais-dall-e-3-for-free-today/
IT業界開始注重SBOM之重要性,並成為導入趨勢
FIND研究員:李啟榮
自從美國聯邦政府將「軟體物料清單(SBOM)」納入必要評估項目之後,使得提供聯邦政府軟體服務的供應商,其所提供之服務均成為SBOM的一部分,以確保軟體成分透明化及安全性。SBOM的概念也逐步普及到一般IT業界,導入採用將成為未來趨勢,尤其在軟體外包議題上,更需依靠SBOM,由業主來把關外包成品的品質和安全,以減少整合測試和上線運作的安全風險。
SBOM協助開源軟體規格與功能透明化 以降低風險
自從開源軟體被公家機構和民間企業廣泛導入應用後,雖然減少了許多傳統商用工具的授權和維護成本,但開源軟體若調校和整合不當,也容易發生資安風險和駭侵漏洞,因為有後續的「供應鏈攻擊」問題,因此需要藉由開立SBOM,讓開源軟體的規格和功能透明化,來減少潛藏的風險暴露。
依據Sonatype在2021年的統計,供應鏈攻擊的案件從2015年的216起、2020年的929起,成長到2021年的將近12,000起 (Sonatype, 2021);另根據Forrester專家在2021年指出,綜合530名資安決策主管的看法,有其中33%的攻擊活動來自外部第三方軟體與其漏洞 (Carielli, 2021)。
圖 1:2015~2021供應鏈攻擊成長幅度
資料來源: (Sonatype, 2021)
2023年SBOM準備率將達到9成
依據VentureBeat對412個業者受訪後的分析,其SBOM的「準備率(Readiness)」,在2021年佔47%、2022年為78%,預估2023年結束後會達到90% (Sawers, 2022);另根據「Gartner’s 2022 Innovation Insight Report on SBOMs」指出,2022年已經有20%的企業,為其關鍵基礎設施和軟體導入SBOM,未來預估成長到60% (Brudo, 2022)。
圖 2:2021~2023 SBOM準備率預測
資料來源: (Sawers, 2022)
運用開源社群力量 有助於改善安全性及良率
經歷許多次足以影響軟體安全性的「供應鏈攻擊」事件之後,SBOM開始被業界所重視,並被逐步導入採用,除了提升軟體外包協作安全性,也能讓開發團隊加入其他業主的外包專案時,滿足業主的驗收需求。
另外,由於SBOM廣泛導入多種開源工具,除了要仰賴軟體開發團隊的測試和維護以策安全以外,還要依賴支持每個開源工具的開源社群力量,從SBOM用料源頭把關安全性,並將發現到的問題及時通報開源社群,來不斷改善安全性、精進品質和良率。
封面圖片來源: 123RF
參考資料
- Brudo, B. (2022, November 22). The rise of the SBOM—Our take on Gartner’s Innovation Insight report for SBOMs. Retrieved from Scribd: https://scribesecurity.com/blog/the-rise-of-sbom-take-on-gartner-report/
- Carielli, S. (2021, March 23). The State Of Application Security, 2021. Retrieved from Forrester: https://www.forrester.com/report/the-state-of-application-security-2021/RES164041
- Hendrick, S. (2022, January). Software Bill of Materials (SBOM) and Cybersecurity Readiness. Retrieved from The Linux Foundation: https://8112310.fs1.hubspotusercontent-na1.net/hubfs/8112310/LF%20Research/State%20of%20Software%20Bill%20of%20Materials%20-%20Report.pdf
- LMG Security. (2023, January 4). Do You Have an SBOM Strategy? Gartner Predicts Sharp Rise as a Critical Infrastructure Requirement. Retrieved from LMG Security: https://www.lmgsecurity.com/sbom-now-a-priority-according-to-new-report-on-open-source-code-risks/
- Sawers, P. (2022, February 2). The state of software bill of materials: SBOM growth could bolster software supply chains. Retrieved from VentureBeat: https://venturebeat.com/business/the-state-of-software-bill-of-materials-sbom-growth-could-bolster-software-supply-chains/
- (2021). 2021 State of the Software Supply Chain. Retrieved from Sonatype: https://www.sonatype.com/resources/state-of-the-software-supply-chain-2021
淺談eSIM及其應用
FIND研究員:張峻維 【eSIM是什麼】 eSIM (Embedded-SIM),又稱嵌入式SIM卡、是一種新型的SIM卡技術,與傳統的可移動SIM卡相比,eSIM不需要物理插卡,而是嵌入在裝置內部的晶片中,增加了安全與便利性,並且可以從雲端設定一個甚至多個設定檔。 >
疫後餐飲業的數位轉型發展趨勢
FIND研究員:陳筱蓁 經歷長達3年COVID-19(嚴重特殊傳染性肺炎、新冠肺炎)的肆虐,仰賴實體消費的餐飲業業者生意大受打擊。如今疫情趨於常態化,台灣餐飲業正快速復甦。根據統計資料顯示,2022年餐飲業營業額回升至8,609億元至8,633億元之間,>