2019年8月,第七代微軟小冰升級了微軟小冰的部分核心技術,主要包括核心對話引擎、全雙工語音及多模態交互感官等。同時拓展上線了多個第三方合作伙伴平臺的小冰產品,產品形態涵蓋社交對話機器人、智能語音助理、人工智能內容創作和生產平臺等。
但微軟小冰是如何獲取這些新技能的?在初冬的一個下午,微軟小冰首席科學家宋睿華、微軟小冰首席NLP科學家武威和微軟小冰首席語音科學家欒劍為從多維度對第七代微軟小冰背后的故事進行了解析。
揭秘:第七代微軟小冰的新技能
微軟小冰由微軟(亞洲)互聯網工程院于2014年5月正式推出,是一個融合了自然語言處理、計算機語音和計算機視覺等技術的完備的人工智能底層框架和系統。
目前,第七代微軟小冰已成為全球最大的跨領域人工智能系統之一,產品形態涵蓋社交對話機器人、智能語音助理、人工智能內容創作和生產平臺等。在全球多個國家,微軟小冰單一品牌已覆蓋6.6億在線用戶、4.5億臺第三方智能設備和9億內容觀眾,在交互場景大幅度拓寬的情況下,微軟小冰與用戶的單次平均對話輪數(CPS)仍保持在23輪。
說:靈活性是小冰的新屬性
武威博士主要介紹了他所研制的更加主動、自主的學習方式,和對微軟小冰管理、關聯的方式。武威介紹稱,小冰發展的目標是成為一個“自我完備的對話機器人!八麘摼哂械哪芰Πǎ1、學習。2、自主管理。3、連接。
其中,第七代微軟小冰擁有一個有趣的應用就是共感模型,這也是自主管理的一部分。武威說:“共感模型的核心是說通過對話策略對整個的對話流程進行把控。共感模型背后實際上是有兩個模型。模型一是回復生成模型。這個模型決定的是說我這個機器人說什么。模型二是策略決定模型。決定的是說我要怎么去說!
因為有了這兩個模型的結合,第七代微軟小冰從原來基于上下文直接產生回復的模式,變成了從上下文到決策,然后再根據這個決策來決定對華人說什么。這也讓微軟小冰的回答更具有靈活性。在第七代微軟小冰的優勢項目中,多輪對話是交互過程中最重要的,因為它涉及到非常復雜的上下文的理解甚至說一些外部知識的引入。
武威介紹通過共感模型去把控整個的對話流程。同時,微軟的工程師們還在工作中也提出了meta-word的概念,meta-word實際上代表了屬性的組合。這種模型至少有幾個好處。1、可解釋性很強。2、可以把meta-word做成接口,工程師可以通過編輯這個接口,編輯meta-word中的屬性,以及這個屬性的值去打造具有各種各樣的風格、情感、話題、意圖等等各種各樣的對話機器人。
武威說:“這個方案具有很好的擴展性,因為這些工程師們可以簡單的通過增加、減少或者修改meta-word里面的屬性值,就可以調整整個生成模型的效果!
唱:小冰唱歌已有突破性飛躍
微軟小冰首席語音科學家欒劍提到了小冰唱歌技術的進展。他透露,小冰是從2016年開始做唱歌的,之后經過努力,小冰在語音合成領域一些大的問題已經被解決了,團隊就開始尋找一個更有挑戰性的課題繼續來做,所以就選擇了唱歌。
選擇唱歌主要有三個原因:唱歌的門檻比說話高,在技術上有難點;情感表達上更加豐富激烈一些,歌曲是一種喜聞樂見的形式;它是一個很重要的娛樂形式,唱歌做好了,應該是很有市場前景、很有方向的。
傳統唱歌合成的方式,主要有兩大類。第一類:單元拼接的方式。優點是簡便易行,音質也可以保持最佳音質,但生成出來的歌會不自然。而第二類:參數合成的方法。就是通過聲學參數里面可能包括能量譜、時長、音高等建模型,但在這個過程中會有音質的損失。
現在,微軟小冰正在兼容這兩種辦法。最開始的模型就是從樂譜里面把那三大要素采集出來之后,分別對聲譜參數、節奏序列、音高軌跡用三個模型分別建模。
深度學習其中一個很重要的支撐就是數據,現在有大數據的支持才能夠把深度學習做的這么好。而“對唱歌這個任務來說,數據其實是比較困難的,因為相對于說話來說,清唱的數據是非常少,絕大部分的數據是混雜的、伴奏的音軌!睓鑴Ρ硎,團隊曾經和唱片公司進行合作,利用了其數據庫中已有的混合了伴奏的數據進行很好的學習。
欒劍總結認為,接下來不管是人工智能創造,還是唱歌提高上,都要兩條腿走路,一邊要不斷提高模型,一邊要不斷挖據更多的數據,這兩個東西如果做的更好,質量會不斷得到提高。
想:小冰的思想從比喻開始
小冰目前除了寫詩、會畫畫、會作曲、會唱歌,今年另一個進展是可以創造比喻。微軟小冰首席科學家宋睿華表示,希望小冰真正創造出人類不曾說過的比喻,而不是在人類已有的文章里去挖掘這種比喻句,不要用“像”、“就像”、“一樣”這樣子的模板把它挖掘出來。
為了幫助小冰學會“比喻”這項技能,宋睿華透露,他們從復雜的詩歌中挑選了6大類,每類122個主題,并通過小冰聊天日志過濾出了包括愛情、內心、世界、母親、美麗、人類在內的96個常用比喻概念。隨后從1000個常用詞中選取了3000個最常用的形容詞擴充小冰的比喻能力。
面向未來的多模態交互感官:是一種融合了全雙工語音交互、實時視覺與核心對話引擎的全新交互感官。它能夠實現用戶與人工智能同時邊聽邊說邊看的交互體驗。繼去年宣布率先開始多模態感官的研發后,今年2月,微軟日本小冰團隊已邀請當地媒體進行了公開測試。該感官有望成為5G時代的全新交互形式。
寫在最后:
對于微軟小冰的未來,微軟的工程師們希望以后小冰可以像人那樣去理解以及交互。微軟小冰本身更是一個框架,微軟的技術工程師們更希望微軟小冰以后能夠成為一個通用的AI平臺。宋睿華說:“我們也把他們叫AI beings!