探索Lake House:Databricks新功能帶來的變革─資策會 FIND科技報─智邦公益電子報
enews.url.com.tw · November 14,2024探索Lake House:Databricks新功能帶來的變革
FIND研究員:莊鈞諺
何謂Lake House概念?
Lakehouse結合了資料湖和資料倉儲的優勢,使資料團隊能迅速運用數據而無需跨多個系統查詢。這不僅確保數據科學、機器學習和商業分析專案擁有最新、完整的數據,還巧妙地克服了資料湖和資料倉儲之間的差異,提供了結構化數據和原始資料的最佳解決方案,從而解決了傳統二級資料架構中的問題。
Databricks Lakehouse的出現,將資料湖的彈性、成本效益及大規模的特性與資料倉儲的ACID交易和數據控管完美結合,實現了商業智慧(BI)和機器學習(ML)的全面應用。其核心在於保留資料於可大規模調整的雲端物件儲存體中,同時使用開放原始碼的資料標準,確保使用者能夠隨時隨地使用資料。
Lakehouse於實際場景中的應用優勢
在許多企業應用中,Lakehouse能夠迅速處理和結合多種異質和複雜的資料。例如,在下面這個實作示範中,我從不同格式的資料來源:交易資料(csv)、GA logs (parquet)和PageSpeed Insights (json)三種資料來源中,結合了資料湖的優勢,處理了複雜的套嵌格式,最終產生了一個日常營運報表,先簡單介紹一下要整合的資料,包括以下三種:
- 交易資料:以csv格式儲存的資料,屬於一般的表格型資料,記錄了日常的交易活動,捕捉每一筆交易的細節,如購買日期、數量和價格等。
- GA4 log資料:GA4 log資料主要用於分析網站的使用者互動和行為,從而幫助企業了解其網站性能和使用者偏好。資料是從BigQuery中導出的,並由於其包含套嵌的數據結構,選擇以Parquet格式儲存在儲存體。Parquet格式不僅確保資料的壓縮效率,還保持了其階層結構的完整性。
- PageSpeed Insight資料:是透過API撈取的資料,以JSON格式呈現。PageSpeed Insight提供了網頁的性能評估,專門測量頁面的加載速度和使用者體驗。它的主要目的是幫助網站開發者優化他們的網站,確保使用者獲得流暢和高效的瀏覽體驗。
圖1.將異質的資料上傳到Databricks平台
圖片來源:本文作者操作截圖
首先,從三個不同的資料來源中提取資料,並將其存儲為Delta表格。選擇使用Delta格式的主要優勢在於它具有ACID交易功能、高效的資料壓縮以及更快速的查詢性能。當資料成功存儲為Delta表後,可以輕鬆地使用spark.read.table方法來讀取這些資料,並將其轉換成Spark DataFrame的格式,便於資料整合。經過這些步驟後,成功地將三個異質來源的資料整合成一份完整的單日報告,充分展現了Delta Lake在簡化複雜資料工作流程上的強大能力。
圖2.將三種資料整合成一個報表
圖片來源:本文作者操作截圖
Data+AI Summit 2023:Lakehouse的全新里程碑
在最近的Data+AI Summit 2023上,Databricks發表了一系列引人注目的Lakehouse增強功能。首先,「Lakehouse Federation」的出現讓組織在不同的數據平台,如MySQL、Amazon Redshift、Snowflake等上,能夠建立一個開放、高效且安全的資料網狀結構,實現資料無論位於何處都能被輕鬆查詢、管理和監管的目的。
接著,「Governance for AI」使得資料和AI資源在同一平台下統一管理,包括從資料、特徵到模型的查看、版本控制和跟踪。「Volumes in Unity Catalog」打破了只管理表格式數據的局限,允許使用者方便地管理如圖片和視頻等非表格式的數據。最後,「Lakehouse Monitoring」和「Lakehouse Observability」透過AI技術,為數據治理帶來前所未有的監視和診斷工具,助力組織主動識別並解決數據和AI模型中的問題。
Lakehouse將主宰資料架構 確保價值最大化
Lakehouse融合了資料湖和資料倉儲的最佳特性,為資料管理和分析帶來了高效且有革命性的進展。透過Databricks在Data+AI Summit 2023上所展示的新功能,Lakehouse進一步強化了其跨平台、AI治理和非表格式數據的管理能力。上述進展預示了Lakehouse將在未來持續主宰資料架構,並確保數據的靈活應用和價值最大化。
參考資料
- 首圖來源:Turned on monitoring screen photo – Free Analysis Image on Unsplash
- 什麼是Databricks Lakehouse?
- What is a Data Lakehouse?
- 2023 State of Data + AI | Databricks
- What’s new with Unity Catalog at Data and AI Summit 2023 | Databricks Blog
- What’s New with Data Sharing and Collaboration on the Lakehouse | Databricks Blog
- Lakehouse AI: A Data-Centric Approach to Building Generative AI Applications | Databricks Blog
MLOps的產業先導者和發展潛力探討
FIND研究員:李啟榮
MLOps是一種以AI機器學習機制結合DevOps流程的策略,但因為MLOps以AI為核心,雖然需要相對較高的技術、資金等進入門檻,卻可以在應用落地後發揮可觀的產值和成長潛力。藉由導入MLOps,除了能在技術上以AI加速DevOps的作業效率和更新頻率,也能藉由導入AI相關技術在DevOps在不同領域和情境,為不同領域的客群發揮關鍵價值。
AI全球產值年增率大幅提升至21.3%
依據國際諮詢機構Gartner統計,AI軟體的全球產值,從2021年的515億美元提升到2022年的625億美元,年增長率從14.1%提升到21.3%。
另外,在2022年Gartner針對資訊長(CIO)的調查中,其中有48%的CIO表示有計畫導入(或正式導入)AI和機器學習科技。
如此可見,機器學習勢必在企業界和市場上佔有一席之地,也有望成為MLOps的要角。
MLOps受到IT國際龍頭業者青睞
另依據IDC指出,在MLOps的領域中,由於最關鍵的資料集和AI模型的技術需求相對較高,具有全面發展MLOps能力,現今僅有一些代表性、標竿性的龍頭,例如IBM、微軟在領先梯隊;而具有較豐沛雲端資源,但在AI方面開始起步的AWS、谷歌、阿里巴巴等,就在微軟腳步後方的「主力參與者」梯隊,可見MLOps對IT龍頭具有值得投入的吸引力,並以豐沛雲端資源為基礎,來發展可支持MLOps的AI模型和資料集。
圖 1:MLOps領域領先梯隊
資料來源: (Lange, Kuppuswamy, & Schubmehl, 2022)
未來展望/挑戰
現階段的MLOps,雖以大型IT龍頭為領頭羊,並以豐沛的軟硬體資源,提供大數據基底資料集、AI模型架構;但未來隨著AI模型和演算法的開源需求提升,可望降低MLOps的入門門檻,讓中小規模的MLOps有機會蓬勃發展,健全工具鏈和技術能量,滿足MLOps日漸普及化的需求。
封面圖片經圖庫123RF授權使用
參考資料來源
- Lange, K., Kuppuswamy, R., & Schubmehl, D. (2022). IDC MarketScape: Worldwide Machine Learning Operations Platform 2022 Vendor Assessment. Retrieved from IDC: https://www.sas.com/content/dam/SAS/documents/analyst-reports-papers/en/idc-marketscape-machine-learning-operations-platforms-113233.pdf
- Rimol, M. (2021, November 22). Gartner Forecasts Worldwide Artificial Intelligence Software Market to Reach $62 Billion in 2022. Retrieved from Gartner: https://www.gartner.com/en/newsroom/press-releases/2021-11-22-gartner-forecasts-worldwide-artificial-intelligence-software-market-to-reach-62-billion-in-2022
具製造約束的可變寬度網格成型通道形狀優化方法-應用於靈活軋延成型製程
FIND研究員:謝旻恒 隨著汽車製造業發展趨勢走向少量多樣的發展,且為因應氣候變遷,而對於汽車的金屬材料有著更輕量且高強度的需求,這些方法與傳統沖壓相比具有新的製造約束,而也改變了金屬零組件的成型形狀。澳洲-迪肯大學(Deakin University),的Jie Gong等五人,>
如何選擇數位工具?又該如何下一步?淺談批發零售產業的數位轉型
FIND研究員:廣永強 FIND研究員:廣永強 根據「2022年中小企業白皮書」資料顯示,2021年台灣的中小企業家數已超過159萬家,占全體企業家數的98%以上;就業人數920萬人,占全國就業人數80%以上;銷售額超過26兆元,占比超過50%;以上數據皆顯示出中小企業對台灣經濟的重要性。>