2019 年,技術進展方面主要體現在預訓練語言模型、跨語言 NLP/無監督機器翻譯、知識圖譜發展 + 對話技術融合、智能人機交互、平臺廠商整合AI產品線。
1 預訓練語言模型
隨著 2018 年底 Google 提出預訓練語言模型 BERT,在多項 NLP 任務上獲得更優效果,預訓練語言模型的研究與應用被學術界和工業界視為 NLP 領域的一項重大突破,將 NLP 問題的解決方式從以往的為每個任務單獨設計復雜的模型逐漸演變成了預訓練 + 微調的范式,讓眾多 NLP 應用能夠享受到大語料預訓練模型帶來的紅利,在通用的預訓練模型的基礎上加入簡單的任務層,并結合自己場景的少量語料就可以獲得一個不錯的領域 NLP 模型。
至此開啟了自然語言處理的新篇章。
在 2019 年,各個研究機構和公司在 BERT 的基礎上進一步創新,紛紛提出了自己的預訓練模型,如:Facebook 發布的 RoBERTa,CMU 發布的 XLNet,Stanford 發布的 ELECTRA,還有百度的 ERNIE 模型,阿里的 structBERT 模型, 華為的 NEZHA,哈工大和科大訊飛也都提出了自己的模型,不斷刷新 NLP 任務的最好成績。
這新的工作總結起來,主要來自訓練任務設計和訓練算法兩個方面。
訓練任務設計
進行更加精細的語義粒度建模,包括引入更細粒度的建模對象和更加精細的刻畫語義關聯。
比如 “全詞 Mask” 或者 “Knowledge Masking”,技術在 MLM 預訓練任務中 Mask 整個詞而不是單個 Token,進而提升了任務難度使得 BERT 學到更多語義信息,哈工大和科大訊飛聯合發布的中文 BERT 模型以及 NEZHA 模型中得到了應用;再比如引入更多類型的句間關系,從而能夠更加準確描述語義關聯性,進而提升語義匹配等方面能力,這在阿里和螞蟻團隊的 BERT 模型中得到體現。
利用新的機器學習方法建模
包括 CMU 和 Google 聯合發布的 XLNet 使用了 Autoencoder 和 Auto-regressive 兩種方案;斯坦福大學提出的 ELECTRA 模型,引入對抗機制來進行更好的 MLM 學習。華盛頓大學和 Facebook 聯合發布的 SpanBERT 模型還引入了 Span 預測任務。這些方案應用更學習方法來建模文字之間的聯系,從而提升模型效果。
訓練算法設計
針對模型的易用性的問題,減少模型參數,或者降低模型的復雜度,包括 Google 發布的 ALBERT 使用了詞表 embedding 矩陣的分解與中間層的共享。
提高訓練速度的優化
包括混合精度訓練,用 FP16 來進行權重,激活函數和梯度等的表示;LAMB 優化器通過一個自適應式的方式為每個參數調整 learning rate,模型訓練能夠采用很大的 Batch Size; 這些方法極大地提高了訓練速度。
阿里的 structBERT 模型通過引入更多模型和任務結構化信息,提升語言表示能力。在Gluebench mark 上多次名列前矛和保持領先位置。通過蒸餾和 CPU 加速,RT 提高了 10x,finetuned 的模型給多個業務場景帶來了明顯提升,上線了 AliNLP 平臺。
預訓練語言模型在大規模無監督文本上進行預訓練,將得到的詞和句子的表示遷移到廣泛的下游任務上,包括文本匹配,文本分類,文本抽取,閱讀理解,機器問答等不同的場景。如阿里語言模型在 MS MARCO 問答評測,TREC Deep Learning 評測上都取得了第一名的好成績。
下游的任務可以在低資源的情況下快速獲得一個不錯的解決方案,極大的提升了 NLP 算法的應用落地能力。
2 跨語言 NLP/無監督機器翻譯
作為預訓練語言模型的擴展,Facebook 的研究人員提出了跨語言的語言模型預訓練 “Cross-lingual Language Model Pretraining”,僅使用單語數據的無監督訓練和使用平行語料的有監督訓練的條件下,模型有效學習了跨語言文本表征,在多語言分類和無監督機器學習等任務上,都比之前的最優結果有顯著的提升。
繼 2018 年 Google 預訓練語言模型 BERT 橫掃 主流 NLP 任務之后,2019 年 Facebook 發布了新型跨語言預訓練語言模型 XLM,實現不同語言在統一嵌入空間的表征共享,并在無監督機器翻譯任務上帶來顯著的質量提升。在探索大規模、多語言神經機器翻譯方向上,Google、阿里巴巴等進行了有效探索,通過同時在數十乃至數百種語向的平行語料上訓練一個模型,而不是對各個語向分別建模,實現語義映射關系共享,不僅壓縮了模型數量,同時普遍提升了小語種翻譯效果。
過去一年來,多語言 NLP 技術的研究成果主要集中在機器翻譯(特別是無監督的機器翻譯),跨語言詞向量,多語言 NER,依存句法分析,詞對齊和多語言詞典生成等方向。
由于跨語言詞向量的學習/映射是其中的關鍵步驟,目前的無監督/跨語言的 NLP 任務在相近的語言之間(如英語/法語,英語/西班牙語等)效果最好,在不同的語言家族間(如英語/越南語)效果還是有較大提升空間。
3 知識圖譜發展+對話技術融合
隨著數據量的積累和應用對數據質量和結構要求的提升,近幾年知識圖譜又成為一項熱點技術開始被關注。
知識圖譜技術領域在 2019 年的發展,包括領域知識圖譜的構建和整合(金融、企業等)、圖譜平臺化標準能力的建設(schema 定義 + 構建 + 調用)、圖譜應用算法建設(基于圖譜數據的圖模型 + 規則推理等);并基于構建的圖譜數據和能力,開始在更多的業務場景得到應用(搜索推薦內容理解和挖掘、金融風控和決策、對話理解和內容生成等)。
在知識圖譜和對話結合的技術方向,對話技術在問答和任務式對話近幾年已形成了一定的技術框架和業務覆蓋,開始需要解決一些對知識理解 + 答案專業性要求更高的領域場景(理財助理等)。
對話技術結合知識圖譜的領域知識完整度 + 結構化質量優勢來進行覆蓋,可以解決相應場景下語料標注(意圖理解)和專家配置(對話流程 + 響應生成)上的不足,進一步提升對話覆蓋和響應質量。融合知識圖譜對話這個方向,在 2020 年會有更多的真實場景落地和覆蓋。
4 智能人機交互
自然語言理解和深度問答匹配技術在學術和工業界持續發發展,并且已經在全域業務和場景有了大規模應用,基于預訓練語言模型進一步帶來性能的提升。
機器閱讀理解成為低成本通用技術,圍繞百科、政策法規、商品詳情頁、說明書等場景構建應用中臺能力,接入效率有了很大提升。結合圖-文的多模態 VQA 問答技術在行業中率先孵化,理解商品詳情頁長圖進行問答成為一項新的競爭力。
對話(Dialog)技術能力進一步發展,但是在端到端的基于數據驅動的對話狀態跟蹤和對話策略還是只能在限定范圍內進行探索,工業場景基于對話平臺構建的任務型機器人成為了主流的實現方案。
多語言技術實現新語言的快速拓展,基于 Cross-Lingual 構建多語言語言模型,在遠距離語言對在英 -> 中、英 -> 泰遠距離語言對上超越 Google,拓展一個新語言從去年的 2 個月縮短到 2 周。
對話生成技術開始取得突破,基于結構化知識的引入提升生成的可控性,賣點的生成帶來導購轉化率的提升。
5 平臺廠商整合AI產品線
隨著 AI 技術發展和 AI 應用的需求,AI 技術框架的成熟(Tensorflow、PyTorch等),AI 技術能力逐漸被標準化為一系列 AI 平臺類產品,面向企業和開發者,提供更低門檻和更高效率的 AI 應用支持。
對話類平臺,Google 從 2016 年開始發布 Assistant 對話助手,這幾年陸續發布了 Google Home(現在整合到 Nest 智能家居品牌),Duplex 語音電話,以及收購了 API.AI 對話開發平臺;今年 Google 已基本整合這些對話產品線,基本布局了對話現有的平臺 + 終端,現成一個整體的對話產品線。
AI 類平臺方面,Amazon 自 2017 年發布 SageMaker 機器學習平臺產品,今年進一步基于 SageMaker 整合 AI 開發過程,同時打通下游技術框架和上游 AI 應用,整合 AI 產品線。類似阿里的機器學習平臺 PAI,定位成面向企業和開發者的一站式機器學習平臺。
2019 年,應用與產品方面主要體現在機器翻譯、對話系統、多輪對話智能服務、智能語音應用持續發展。
6 機器翻譯
機器翻譯的產品發展延續了之前的趨勢,在通用領域(新聞),特定領域(電商,醫療等)擴展了更多的語言方向,支持了更豐富的業務場景,并持續帶來商業價值。阿里巴巴在翻譯干預和智能泛化方向進行了卓有成效的探索,把業務知識更好地融合到神經網絡翻譯框架中,大大提升了垂直場景下關鍵信息的翻譯準確率。
高價值和高敏感內容的翻譯目前仍離不開人工,因此在計算機輔助翻譯(CAT)引入智能算法實現人機協同翻譯,以及機器翻譯后編輯(MTPE)等新型生產模式,也受到越來越多的關注。阿里巴巴、騰訊在自動后編輯(APE)、交互式翻譯(IMT)都開始有產品推出,并在實際業務中落地。
除了文本翻譯之外,更多的多模態翻譯應用場景出現,如語音翻譯在會議同傳,雙語字幕,翻譯機硬件上的嘗試(阿里二十周年年會上馬老師和逍遙子演講也以實時雙語字幕的形式展示)。
結合 OCR,機器翻譯和合圖技術的圖片翻譯在支付寶掃一掃,微信,搜狗翻譯機上得到應用。隨著賣家直播的興起,直播視頻翻譯的場景和需求也會越來越多。但是受限于直播場景中復雜的領域,專業的術語,快速的語速和有時嘈雜的背景環境,直播翻譯對于語音識別和機器翻譯的挑戰也是非常巨大。
7 對話系統
對話系統的語言覆蓋進一步提升,基于多語言遷移能力快速拓展了法語、阿拉伯語、臺灣話的對話系統,目前已支持 11 個語種,及馬來語-英語和泰語-英語的混合語言理解,為 Lazada 和 AE 帶來解決率的大幅提升。
對話系統支持了更大規模的商家和企業,支撐了超過 50+ 的集團經濟體客戶,店小蜜拓展了通用包、行業包、店鋪包的知識定位能力,累計承載百萬級活躍商家,日均千萬級對話輪次。釘釘小蜜基于企業智能助理承載了 40W 日均活躍企業。
對話系統的交互形式進一步豐富,直播小蜜實現了從商品相關問題的被動回答,到主動和用戶展開開放式對話的轉變,帶來 cdau 破百萬。
VQA 等多模態理解能力落地店小蜜及經濟體小蜜,提升用戶交互體驗的同時大幅降低商家配置成本。
熱線小蜜的語音交互能力作為典型案例獲 2019MIT Technology Reviewer 十大突破技術提名,并沉淀了面向多領域的外呼場景,并在多個生態輸出。
8 多輪對話智能服務
多輪交互在智能服務場景(客服機器人)在解決用戶模糊問題,提高用戶使用體驗方面起到的重要的作用。模糊問題指用戶問題描述不完整,如 “怎么開通” ,這句話沒有說明是哪個業務,這類問題占客服機器人總提問量的 30%。
螞蟻智能服務團隊設計了基于標簽的多輪交互方案,首先離線挖掘標簽,并審核,標簽包括業務標簽(花唄,備用金...)和訴求標簽(怎么開通,如何還款...),通過向用戶反問標簽列表的形式澄清用戶問題。
已有的問題澄清方法主要通過直接推薦完整澄清問題的方案,但定義什么是好的澄清問題仍然不明確,螞蟻團隊設計了一個基于強化學習推薦標簽列表的方案做問題澄清,整個標簽推薦是一個序列決策的過程,在用戶點擊了標簽之后,我們會把點擊的標簽和原始的用戶問題一起作為澄清后的問題。
整個優化的目標是,目標是最大化整個標簽列表對潛在澄清問題的覆蓋率,同時保持不同標簽對潛在澄清問題集合的有效劃分,因此,在強化學習過程中,相應設計了基于信息增益的獎勵(Reward)。
基于強化學習方法的多輪交互上線后,螞蟻客服機器人場景共解決了 33% 的模糊問題,機器人綜合場景轉人工率絕對下降 1.2%。
9 人機對話構建新的交互入口
場景驅動的個性化多輪對話技術,助推人機對話場景擴充,同時語音語義一體化的上下文語義理解技術,持續提升多輪對話達成率。
天貓精靈在過去一年中,將人機對話能力擴充到二哈電話助手,語音購物,新人使用引導等復雜的交互場景,更是在雙十一期間,創造了語音購物 100 萬訂單的記錄。
天貓精靈在去年的 315 推出了防騷擾電話助手 “二哈”,開啟了全新的人機對話交互場景:作為用戶的替身完成對話。“二哈” 的對話場景是在垂直領域內的開放式多輪對話,目的是通過對話來識別來電意圖,并代替用戶來獲取必要信息。在 “二哈” 中我們提出了基于多輪對話上下文的機器閱讀理解技術,用以理解來電意圖和關鍵信息;基于對于來電內容的理解,我們基于 Transformer 構建了對話策略模型,用以選擇策略和生成對話。針對 “二哈” 的對話場景,我們提出使用圖靈測試通過率來衡量對話的質量,亦即當來電在整個對話中都沒有意識到是機器在與其通話時,可以認為 “二哈” 通過了圖靈測試。“二哈” 目前的圖靈測試通過率達到了 87%,有效的幫助了用戶應對陌生來電,節省用戶時間。
通過人機對話的方式去完成復雜的任務,比如點咖啡、購物等,往往需要機器和用戶進行多次對話交互,同時在不同的任務場景下,對話機器人需要掌握各自領域的知識,才能和用戶對答如流。比如在語音購物場景,天貓精靈具備跨行業的智能導購員能力,吸收各行業導購員的銷售經驗,在用戶進行語音購物的時候,以最終的成交轉化為目標,像商場的銷售員一樣主動進行多輪對話形式的購物引導,深入挖掘用戶購物需求并結合用戶畫像進行精準推薦。且對不同的用戶,天貓精靈可以采用最適合 TA 的對話方式,做到個性化多輪對話。
多輪對話的達成,是建立在一系列的單輪交互都達成的基礎上的,而如果整體任務的達成率是簡單的單輪達成率的乘積關系的話,多輪對話的達成率將很難提升。而打破簡單乘積關系的關鍵在于,每一輪對話理解的時候,需要充分利用上下文信息。
在天貓精靈上,我們進行了上下文語音語義理解的探索。首先在語音解碼的環節,我們將多輪對話中,上文提到的實體信息構建成 memory,通過 attention 機制讓解碼器網絡感知到這些對話場景信息,顯著提升了多輪對話場景的語音識別精度,然后在語義理解環節,我們獨創了具備跨輪 attention 能力的端到端上下文繼承模型,實現更高效的對話場景恢復的能力。從而讓線上多輪對話的錯誤率下降了 58.5%,有效保障了復雜多輪對話場景的擴充。
10 智能語音應用持續發展
智能音箱,近幾年基本上國內外大玩家都已陸續進入市場(Amazon Alexa、Google Home/Nest、天貓精靈、小米小愛、百度小度),2019 年進入競爭格局;2019 年智能音箱出貨量仍然在增加,但增速下降。
智能音箱仍然以音樂播放等軟件類服務為主,但進一步應用創新仍依賴智能家居和 IoT 設備的進一步普及。
智能語音電話,2018 年 Google I/O 大會展示了 Duplex 的語音電話助手 demo。2019 年智能語音電話開始更多地應用到真實業務領域,包括電銷、金融、政務等領域的應用都在增長,以提升用戶服務覆蓋+降低人工成本。
螞蟻智能語音電話 2019 年也在安全(核身)、金融(保險回訪、微貸催收)、支付(客戶激活)等更多金融場景應用和落地。
智能語音類應用,所面向的用戶場景強依賴對話語音交互,推動了 NLP 技術和語音技術的發展;隨著技術和產品的發展成熟,以及用戶接受度的提高,2020 年的應用規模和領域會進一步擴大。
資料獲取 | ||||||
|
||||||
新聞資訊 | ||||||
== 資訊 == | ||||||
» 人形機器人未來3-5年能夠實現產業化的方 | ||||||
» 導診服務機器人上崗門診大廳 助力醫院智慧 | ||||||
» 山東省青島市政府辦公廳發布《數字青島20 | ||||||
» 關于印發《青海省支持大數據產業發展政策措 | ||||||
» 全屋無主燈智能化規范 | ||||||
» 微波雷達傳感技術室內照明應用規范 | ||||||
» 人工智能研發運營體系(ML0ps)實踐指 | ||||||
» 四驅四轉移動機器人運動模型及應用分析 | ||||||
» 國內細分賽道企業在 AIGC 各應用場景 | ||||||
» 國內科技大廠布局生成式 AI,未來有望借 | ||||||
» AIGC領域相關初創公司及業務場景梳理 | ||||||
» ChatGPT 以 GPT+RLHF 模 | ||||||
» AIGC提升文字 圖片滲透率,視頻 直播 | ||||||
» AI商業化空間前景廣闊應用場景豐富 | ||||||
» AI 內容創作成本大幅降低且耗時更短 優 | ||||||
== 機器人推薦 == | ||||||
服務機器人(迎賓、講解、導診...) |
||||||
智能消毒機器人 |
||||||
機器人底盤 |