ReKep技術將使未來AI機器人商品蓬勃發展─資策會 FIND科技報─智邦公益電子報
enews.url.com.tw · February 13,2025ReKep技術將使未來AI機器人商品蓬勃發展
FIND研究員:楊醒軒
著名的史丹佛大學AI教授李飛飛為解決機器人在多階段、空間和時間依賴任務中的挑戰,提出了一種名為「關係關鍵點約束」(ReKep)的新技術。這個技術利用了自動生成約束,幫助機器手臂完成家務操作,如倒茶、摺疊衣物等複雜動作,顯著提升了機器人的任務成功率。目前該技術的研究成果已經公開,其程式碼也已開源。
技術發展背景
在機器手臂的操作過程中,對空間和時間的依賴性以複雜性讓現有方法無法能夠充分的應對,尤其是對於需要處理可變形物體的情況。而以往使用剛體變換的方法對物件模型有過度依賴,加上又缺乏幾何細節的考量而致使發展受限。而且資料驅動的視覺學習方法一直面臨著收集訓練資料的挑戰,這些都使得機器人在家務等實際操作中難以表現出色。
技術介紹
此一「關係關鍵點約束」(ReKep)技術,主要在讓機器人能更靈活且準確地完成各種操作任務。核心理念是將手臂運作的操作過程轉化為一系列具體的空間和時間約束,這些約束由機器人從所在的場景中自動識別出關鍵點來引導,而不需要事先人工標記。
操作任務的拆解
在執行任務時,ReKep首先會將操作動作拆解為若干步驟,這些步驟中的每一步都涉及與場景中物體的互動。例如在倒茶的任務,機器人會先分析場景,使用攝影機或其他感測器來確定茶壺、茶杯等物體的具體位置、形狀、大小等屬性。接下來,ReKep系統自動識別這些物體在三維空間上的「關鍵點」,如茶杯的中心點、把手的中心點等。這些關鍵點代表著機器人在操作中需要特別注意的位置。
動作規則的生成
基於這些關鍵點,ReKep系統會為機器人生成一套操作規則,這些規則包括如何抓取、如何移動、傾斜、施力等。例如,在倒茶過程中,機器人需要依據ReKep所生成的約束來確定;加上即時優化與回溯的機制,可使得當機器人在進行倒茶的動作時,如果茶杯意外移動,系統可以即時回溯,重新計算新的抓取或倒茶的方式,進而保證最終的成功率。
這種能夠自主學習與適應的方式,意味著機器人透過不斷練習,能夠越來越熟練,最終可以輕鬆應對日常家務、協作工作甚至更高難度的操作挑戰。
圖1、使用大型視覺模型(LVM),如DINOv2,來提取場景中的特徵,並利用這些特徵來識別潛在的關鍵點。
圖片來源: 科技新報網站https://technews.tw/2024/09/10/li-feifeis-team-recreates-black-technology/#more-1278220
未來展望
這種技術使得機器人能夠從現今巿場上多數所謂的智能機器人從執行單一、簡單任務逐步發展成為能處理多階段、複雜場景的全能作業,實現了對機器人在智慧操作領域的重大突破。
未來,該ReKep技術可望被應用到更多實際場景中,尤其是在家庭、醫療和其他需要複雜操作的領域。隨著技術的不斷成熟和擴展,機器人將變得更加智慧化以及實用化,不久的將來將能處理更多高難度的任務。
封面圖片來源:https://www.youtube.com/watch?v=2S8YhBdLdww
參考資料來源:
1.科技新報,https://technews.tw/2024/09/10/li-feifeis-team-recreates-black-technology/#more-1278220
2.https://arxiv.org/pdf/2409.01652 ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation
AI前景看好,日本如何布局大型語言模型市場?
FIND研究員:陳蕙琪
日本正積極布局日語大型語言模型(Large Language Model, LLM)的發展。近年日本政府和企業都高度重視AI技術,投入研發資源希望在此領域取得突破性進展。根據總務省2024年版情報通信白皮書統計,目前日本民眾使用生成式AI比例有9%,與歐美相對較低,但對未來使用持正面態度。在製作及翻譯文件、查詢資料、利用AI諮詢健康及疾病資訊等潛在需求預估達7成,看好日本AI發展前景。
GPT-4 Turbo模型運算能力多4倍
為了掌握日本市場需求,全球領先的AI公司OpenAI宣布在東京設立亞洲第一個辦公據點,並推出專為日語使用者設計的GPT-4 Turbo模型。這款模型的運算能力是GPT-4的4倍,處理日語內容的速度更是3倍,可見OpenAI對日本市場的重視程度。
日本國內企業和研究機構也積極發展自有大型語言模型。日本電信電話公司(NTT)開發以日文為主的輕量級模型tsuzumi,定位為擁有專業知識的小型語言模型,已開始應用在金融、醫療等領域;Line(Line Yahoo)則推出Japanese-large-lm模型,使用LINE自己的大型日語網頁來訓練模型,為日語的開源軟體。此外,日本廣告公司Cyber Agent發行了Cyber Agent LM2-7B模型,另有發行聊天版本的CyberAgentLM2-7B-Chat,可以一次處理5萬字的日語文章。
日本學研機構積極發展大型語言模型
日本國立研究開發法人情報通信研究機構(NICT)與KDDI株式會社開始共同開發大型語言模型,NICT蒐集600億件以上的網頁資料,搭配KDDI開發的幻覺抑制技術及多模型AI技術,致力提高執行系統的信賴性。日本軟體公司Stability AI Japan推出Japanese Stable LM Alpha大型語言模型,其學習資料涵蓋日文和英文,為研究目的而創建的模型,發表後僅供研究使用。
圖1:日本主要LLM
資料來源:期待高まる国産生成AI(前編)──AIの歴史的変遷と大規模言語モデルの動向 | NTT技術ジャーナル
日本在大型語言模型市場的積極布局,展示了科技創新與本土化需求的完美結合。無論是政府的政策支持,還是企業和研究機構的技術研發,都為日本在全球AI競爭中奠定了堅實基礎。
對於台灣而言,日本的成功經驗值得借鏡。台灣可以加強政府與產業的協同合作,推動本土AI技術的研發,特別是針對在地語言及文化需求的模型開發。同時,吸引全球科技領袖來台設立研發據點,提升國際競爭力,為未來的AI技術應用鋪設堅實道路。
封面圖片來源:本文作者以AI生成
參考資料來源:
1.期待高まる国産生成AI(前編)──AIの歴史的変遷と大規模言語モデルの動向
3.Introducing OpenAI Japan | OpenAI
5.36億パラメータの日本語言語モデルを公開しました (linecorp.com)
6.独自の日本語LLM(大規模言語モデル)のバージョン2を一般公開 ―32,000トークン対応の商用利用可能なチャットモデルを提供― | 株式会社サイバーエージェント
7.日本語言語モデル「Japanese StableLM Alpha」をリリースしました
8.NICTとKDDIが大規模言語モデルに関する共同研究を開始|2024年|NICT-情報通信研究機構
科技助力長照! 降低照護人員的負擔,共創長者的高品質照護
FIND研究員:葉芷蓁 全球高齡少子化的問題日益增長,長者的照護問題也成為大家所重視之議題。然而,隨著人口老齡化的加劇,現有的長照機構已經無法滿足供需問題,照護者的工作壓力和工作量也在不斷增加,需同時處理多項工作,>
漏洞懸賞(Bug bounty)的市場發展趨勢,有望成為全民資安運動
FIND研究員:李啟榮 有鑑於層出不窮的資安漏洞及其帶來的大小不等危害,資安專家除了設法分析和修補漏洞以外,還藉由祭出獎勵的方式,吸引志願者協助發掘潛在資安漏洞,此一策略稱為「漏洞懸賞(Bug bounty)」。>