NLP技術類型及發展趨勢─資策會 FIND科技報─智邦公益電子報
enews.url.com.tw · December 19,2024NLP技術類型及發展趨勢
FIND研究員:翁逸姝
NLP(自然語言處理)為機器理解並解釋人類寫作、說話方式的能力,其目標是彌補人類交流(自然語言)和計算機理解(機器語言)之間的差距,NLP包含NLU和NLG,這兩者可視為相反的程序,NLU將人類語言轉成內部計算表示式,而NLG則將內部計算表示式轉成人類語言:
自然語言理解 NLU:
理解給定文本的含意,透過詞彙和語法規則了解每個單詞的含意,包含:
●詞法歧異性─ 單詞有多種含意
●句法歧異性─ 語句有多重解析方式
●語意歧異性─ 句子有多重含意
●回指歧異性─ 前述的單詞或短句在後面有不同含意
自然語言生成 NLG:
從結構化數據中自動生成可閱讀的文本,包含:
●文本規劃─ 完成結構化數據中基礎內容的規劃
●語句規劃─ 從結構化數據中組合語句,表達訊息
●實現─ 產生語法通順的語句來表達文本
NLP近期發展趨勢:「從符號主義和連接主義的對立走向合作,從靜態分析走向交互,從語法和淺層語意走向深層語意,從功能主義走向認知和情感體驗」,其中熱門的領域包含:
對話系統Dialogue:
自然語言對話將會開啟新的人機交互時代,然而對話有大量的省略和指代,必須透過大量的上下文訊息才能夠理解對話,因此對於訓練數據有指數級別上升的要求,故目前的對話系統一定是在限定場景下發揮作用的
閱讀理解Open-domain QA:
透過大量閱讀和記憶網絡回答開放性問題
非監督式學習Unsupervised Learning:
不須以人力輸入標籤,僅需提供範例,機器在學習時會自動找出潛在規則,包含集群(clustering)演算法、關聯規則探索(association rule discovery)等
自然語言生成NLG:
透過RNN-language model做自然語言生成已相當成熟,而透過GAN/VAE生成也相當熱門,但生成模型在自然語言方面並沒有像在圖像方面的顯著成效,最主要的課題在於NLG的應用目的尚不明朗,目前許多應用仍是在精心設計下的模板中產生,若能有清楚的應用標的,便能夠產出具有意義的應用,Gartner預測2018年將有2成的商業內容是由機器人所撰寫
NLG分類及主要應用模式:
NLG可分為四大類:
●以樣板或規則,輔以語料,經計算後產生
●使用通用的演算法,產生多組候選結果,經過評估挑選後產生
●使用有限狀態機(finite-state machine)或統計式機器翻譯(statistical machine translation)的技巧,逐句產生
●使用語料,以遞歸神經網路(RNN)和長短期記憶模型(LSTM)做學習,並採用增強式學習(reinforcement learning),經過生成、對抗、優化挑選,迭代產生結果,可在文法上(grammatical)、意義上(meaningful)、特定需求上(例如符合特定格式,或呈現重點),有更好的表現
在應用上,NLG可用於:
●輔助寫作:
如產生天氣預報、實驗或模擬結果的文件化、客服人員的回信(QA)、技術手冊的撰寫
●機器寫作:
如論文或專利的摘要、統計數據的文件化、病人就診紀錄及資訊的解釋
●教學:
如語言的教學及練習
●行銷:
如高轉換率、個人化的商品描述及廣告文案的生成
●行為改變:
如個人推薦、改變其購買行為或品牌,戒菸文件的產生
●娛樂:
如詩歌或笑話產生器,劇本生成
資料來源:
文章source:Xenonstack、竹間智能
封面圖片(免費下載):https://pixabay.com/zh/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD-%E6%9C%BA%E5%99%A8%E4%BA%BA-ai-%E3%81%8D-%E7%BC%96%E7%A8%8B-%E8%AE%A1%E7%AE%97%E6%9C%BA-%E7%8E%AF%E5%A2%83-%E8%AF%AD%E6%B3%95-%E7%A8%8B%E5%BA%8F-2167835/
NLG案例介紹:Yseop
FIND研究員:翁逸姝
Yseop(發音為“Easy-Op”)是一家來自法國的私人控股,具跨國電腦軟體公司,成立於2007年,其在New York、 Oxford (UK)、 Lyon、Bogota、Dallas and Paris等處都設有辦事處,服務內容是透過人工智能的技術可自動化報告產製、企業風險評估,主要產品為Yseop Compose可自動化金融服務、商業智能、營銷等方面的書面報告,可支援英語、西班牙、法語、德語、荷蘭語和日語等語系。
Yseop將自然語言生成(NLG)商業化,該軟體平台將推理應用的數據內容轉換為書面建議和報告速度為每秒3,000頁,甚至可以從數據中編寫報紙故事,解釋數字背後的動機和背景。迄今為止,Yseop的軟件可以用英語、西班牙語、法語和德語編寫,是市場上唯一的自助式自助NLG軟件。目前Yseop的平台用於各種行業,如金融業(包括例如SociétéGénérale和FactSet)和保險產業。
本研究歸納出該公司幾個特點:
Yseop Compose:
將資料轉化為商業洞察,分析重點並且給予解釋,推薦下一步作法,可於客戶自有系統中運作,不須擔心商業機密外流,支援英語、西班牙語、法語、德語
Yseop Savvy:
與BI系統串接,產出資料摘要
應用案例:
分析BI報表、對內/外行銷報告產出(競爭對手、行銷活動、銷售量分析)、零售業績效指標解釋、物聯網數據解析
金融業服務:
財報/風險分析、會議備忘錄、財富管理成果呈報
商業模式:
月費/年費
商業成就:
50,000名用戶,其中包含80%的歐美銀行
資料來源:
封面圖片:Yseop FB官網
https://www.facebook.com/YseopAI
影片來源:https://www.youtube.com/watch?v=FFHGP5_mgm0
NLG案例介紹:Arria NLG
Arria NLG是一家總部位於英國的公司,成立於2009年,原先名稱為Data2Text Limited,2012年5月與Arria NLG合作(原先持有20%股份),在2013年底,Arria NLG收購了Data2Text的剩餘80%股份,於2013年12月在倫敦的另類投資市場(AIM)上市,價值超過1.6億英鎊。該公司主要致力於數據分析和資料傳遞方面提供人工智能技術。同時也是自動文本生成領域的先驅公司之一。>
NLG案例介紹:Dreamwriter
2015年9月一篇《8月CPI漲2%創12個月新高》,在中國媒體圈引起熱議,原因無他,因為該篇不是由人為製成,而是來自於機器人。由騰訊財經團隊所研發出的Dreamwriter,是由騰訊出品的一款專門用來自動書寫新聞報導的寫稿機器人。>