LASS音源分離技術,讓我聽見我要的聲音─資策會 FIND科技報─智邦公益電子報
enews.url.com.tw · June 19,2025LASS音源分離技術,讓我聽見我要的聲音
FIND研究員:楊育維
人聲?鼓聲?汽車聲?不同聲音該如何分辨?
隨著科技的快速發展,音源分離技術正逐步進入人們的視野。在人工智慧(AI)與深度學習技術的推動下,音訊處理的精細度達到前所未有的高度,並被廣泛應用於音樂製作、語音增強、環境音分析等領域。然而,傳統的音源分離技術主要針對特定類別的聲音(如語音與音樂),但在開放環境中,如何從複雜的混合音訊中精準提取目標聲音,仍是一大挑戰。
【音源分離技術概述與發展】
開放域音源分離(Open-Domain Source Separation)技術的突破,使音訊處理不再受限於既定的音源類別(如人聲、樂器、環境音),更能適應未知或未分類的聲音,大幅提升應用的廣泛性與靈活度,為多元音訊處理需求提供更強大且彈性的解決方案。
隨著自媒體、短影音內容及科技應用的快速發展,聲音的應用方式正經歷顯著變革,在現代數位環境中,各類音訊資訊交錯混雜,使目標音源的精準提取成為一項關鍵挑戰,例如:
- 短影音創作:透過分離人聲與環境音,讓內容編輯更加靈活,或強調特定音效,以增強視聽體驗的沉浸感。
- 智慧監控系統:精準辨識特定聲音(如警報聲、人群喊叫聲),提升監控系統的反應速度與準確性,實現更高效能的安全監控應用。
- 醫療應用:運用音源分離技術提取純淨的心音與肺音,提升心雜音、心律不整、哮喘、肺炎等疾病的診斷準確性,並去除背景雜訊,精準提取關鍵聲音,助力醫療智慧化發展。
隨著對更精細、個性化的聲音處理需求日益增長,傳統的錄音、剪輯與回放技術 已難以滿足現代應用場景。因此,自然語言查詢音源分離技術(Language-queried Audio Source Separation, LASS) 應運而生,成為這場技術革新的核心。
LASS允許使用者透過自然語言描述來分離特定聲音,突破傳統依賴預設標籤的限制,使音訊處理更加靈活、直觀,更貼近多樣化的應用需求。這項技術已廣泛應用於影音製作、智慧監控、醫療輔助、語音增強等領域,為音訊處理帶來前所未有的變革與可能性。
【技術應用現況】
為了應對LASS技術在開放域音源分離中的挑戰,AudioSep模型 採用自然語言查詢作為核心機制,讓使用者僅需透過簡單的文字描述,即可從混合音訊中精準提取目標聲音,達到靈活且高效率的音源分離。
AudioSep 主要由文本編碼器(Text Encoder)和分離模型(Separation Model)兩大關鍵組件構成,其整體架構如圖1所示:
圖1 : 模型架構圖
資料來源: Xubo Liu, Qiuqiang Kong, Yan Zhao, Haohe Liu, Yi Yuan, Yuzhuo Liu, Rui Xia, Yuxuan Wang, Mark D. Plumbley, Wenwu Wang, "Separate Anything You Describe,"
文本編碼器將使用者的語言輸入(如「人聲」或「狗叫聲」)轉換為語義向量嵌入,同時,聲音輸入經短時傅立葉變換(STFT)轉換為頻譜資訊(Magnitude & Phase)。接著,模型透過語義向量與音訊特徵的匹配,利用SeparationNet深度學習網路架構進行處理,根據語義條件選擇並提取對應的音源。最後,經逆短時傅立葉變換(Inverse STFT)還原至時域波形,生成最終分離的音訊,確保輸出的音質清晰且符合語義查詢需求。
圖2 :音源分離結果可視化圖
資料來源: Xubo Liu, Qiuqiang Kong, Yan Zhao, Haohe Liu, Yi Yuan, Yuzhuo Liu, Rui Xia, Yuxuan Wang, Mark D. Plumbley, Wenwu Wang, "Separate Anything You Describe,"
上圖(圖 2)展示了AudioSep-CLAP 模型在音源分離任務中的表現,透過自然語言查詢(Text Query)提取特定音源,並可視化比較音訊混合物(Mixture)、分離結果(Separation Result)及目標音源(Target)的頻譜圖。「FIND研究員:楊奕琦
隨著健康意識的提升和數位技術的進步,運動健康產業迎來了數位轉型的新機遇。資策會數轉院輔導永悅健康攜手跨域合作夥伴,打造「數位健走整合平台」,透過數據分析、建立常模對比與個人化推薦,將健走活動數位化,解決產業及消費者痛點,並串聯運動、健康相關產業廠商,建立完整數位化健康管理生態系統。
數位轉型挑戰:健康需求的個性化缺口
隨著全民健康意識的提高,愈來愈多消費者希望獲得符合自身需求的健康解決方案,對於運動服務產業的需求也逐漸顯現。對普通民眾而言,錯誤的運動方式不僅難以達到預期效果,甚至可能造成運動傷害;缺少適當的運動強度指導和健康監測,也讓他們在參與運動時感到不安,更缺乏持續運動的動機。然而,目前的運動服務和產品仍以大眾化需求或教練個人經驗為主,消費者仍需耗費大量時間在市場中尋找適合的課程或產品,缺乏精準、個人化的選擇。
資策會數轉院團隊採用4D顧問方法(Demand、Design、Deploy、Diffusion),依託需求預測、設計思維和技術生態建構等策略,把握個人化運動服務的商業需求,輔導廠商整合建立生態系,並實現健走數據應用的商業價值轉化:
-
增強數位整合:建立常模分群
以運動數據公益平台的步行數據集作為基礎,整合報名資料與健行筆記App數據,開發健走數據常模。並根據常模進行分群分析,針對不同群組特徵提供個性化的健走建議與產品,從而提升用戶的參與感與黏著度。
-
提升參與動機:個人化推薦模組
平台針對用戶每日步數、運動強度等參數,動態生成個性化健走建議,解決用戶想要運動卻缺乏明確目標、難以堅持執行的痛點。更進一步結合佳格食品產品與線上課程資源,打造全方位的健康解決方案,並藉由可視化回饋提升用戶運動成效的感知。
-
拓展數據價值:實體課程驗證
在健走班課程中應用高齡體適能常模數據,設計降階、標準與進階課程內容,並結合達特富足壓檢測結果,實施個人化調整。提供學員量身訂製的課程體驗,同時收集數據,用於進一步的課程優化與模式實證。
創新數據應用,開創健康未來
藉由數據分析的深度應用與生態系統的整合構建,永悅健康不僅成功整合運動健康相關產業夥伴,把握消費者個人化需求的缺口,設計驗證應用數據分析量身打造的健走課程與建議、建立AI健走建議模組、AI產品與課程個人化推薦模組,更為健康管理帶來個性化、高效的創新解決方案。未來將持續優化並擴大應用範疇,引入多元化生態系夥伴,並攜手相關產業,以整合完整健走生態全為目標,帶動全民健康生活風氣的提升,共同實現數據驅動的健康願景。
參考資料來源:資策會數轉院健康數據科技中心運動資料組整理
區塊鏈:打造數位世界的信任基礎
FIND研究員:王楨芸 隨著數位時代的發展,資訊安全與數據管理成為全球關注的焦點。傳統的數據儲存與交易模式仰賴中央機構,如銀行、政府或企業伺服器,然而,這些模式存在單點故障、數據竄改、隱私洩露等風險。>
Club Tourism 為銀髮族重拾活潑、健康的生活
FIND研究員:數位生態價創組、綠色製程科技中心 Club Tourism 是一家位於日本的旅遊公司,也是目前日本規模最大的銀髮族俱樂部之一,專門針對老年旅客提供量身打造的旅遊服務。該公司以安全、舒適且高品質的旅行體驗聞名,除了多樣化的旅遊主題行程外,也會充分考慮高齡旅客的特殊需求,>