全雙工就夠了？思必馳聊更強的持續(xù)對話能力

2019-12-05 16:08 來源：互聯(lián)網(wǎng) 我來投稿撤稿糾錯

AI語音已逐步滲透到了大眾的生活中，但是刻板的對話方式似乎還困擾著廣大用戶。

全雙工這個概念對人工智能行業(yè)從業(yè)者來講，并不陌生。談到全雙工，此前，谷歌Duplex幫助人們通過電話預(yù)約餐廳和理發(fā)師的功能，帶來了有趣的觀感體驗，在I/O 2019上，谷歌宣布對Duplex進行重大擴展。

谷歌Duplex

在推進對話交互智能的市場化應(yīng)用過程中，思必馳同樣發(fā)現(xiàn)，自然流暢的對話體驗、類人化的交互體驗成為了絕對的剛需。

因此，具備以上兩個特點的全雙工語音交互技術(shù)，成為了關(guān)注的焦點。思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱，早在劍橋大學(xué)期間主導(dǎo)開發(fā)了全雙工口語對話系統(tǒng)，2010年參加國際對話系統(tǒng)研究挑戰(zhàn)賽時，獲得可控測試的冠軍，這也是世界上最早的全雙工端到端口語對話系統(tǒng)之一。區(qū)別在于，與現(xiàn)在廣泛作用于物聯(lián)網(wǎng)智能終端設(shè)備的全雙工交互系統(tǒng)相比，當時的主要應(yīng)用，在基于電話信道的人機交互方面。

全雙工是個系統(tǒng)工程

作為系統(tǒng)工程，全雙工需要綜合利用語音語言技術(shù)的各個模塊，實現(xiàn)前后聯(lián)動，例如，其對前端信號處理、AEC回聲消除有強相關(guān)依賴，實時上傳的音頻對噪聲處理、音頻音質(zhì)要求較高，同時，作為系統(tǒng)工程，全雙工涉及到全鏈路語音交互的各個模塊，其同樣需要對識別后的識別信息、語義信息等進行綜合判斷及處理，并做出決策。

半雙工&全雙工

因此，全雙工交互技術(shù)的提升涉及到對話系統(tǒng)的各個模塊，不僅各個模塊的功能需要提升，模塊間的配合能力更需要完善。

思必馳在推進全雙工交互技術(shù)的市場落地過程中，發(fā)現(xiàn)了一個更有效的事情，“全雙工+語義拒識”讓交互體驗更加優(yōu)化。全雙工固然重要，但語義拒識算法，卻往往容易被人忽視。

語義拒識算法

受限于語音技術(shù)的發(fā)展，現(xiàn)有的對話系統(tǒng)受噪聲條件的影響非常明顯，缺乏穩(wěn)健性。在對話系統(tǒng)中，說話人的檢測和基于語義的拒識是其非常重要的組成部分。當說話人的語音模糊不清或者語音數(shù)據(jù)不在已有訓(xùn)練集合中時，識別系統(tǒng)會產(chǎn)生識別錯誤，從而影響對話系統(tǒng)的識別和理解效果。

在半雙工狀態(tài)下，環(huán)境噪聲以及周圍人聲容易引起無效輸入，對話系統(tǒng)或錯誤響應(yīng)，或給出“沒聽懂”的呆板播報，并且播報時不能打斷，十分影響交互效率。全雙工狀態(tài)下，對無實際語義的輸入則不會給出響應(yīng)。

拒識算法主要目的是去除沒有語義意義的音頻片段，節(jié)省后端處理的計算資源，提高整個對話系統(tǒng)的交互魯棒性，提升用戶使用體驗，避免錯誤的語義理解引發(fā)錯誤的反饋到用戶端。

思必馳語義拒識算法

思必馳拒識算法能夠解決的很多噪聲和無語義意義的問題，例如用戶無意義的嗯啊聲、背景噪聲與閑聊聲、純音樂聲、聲音幅度小、各種笑聲尖叫聲，無厘頭聲音等。

語義拒識對全雙工對話交互而言至關(guān)重要，可以說，拒識做不好，全雙工的效果往往也會差強人意。

思必馳全雙工交互技術(shù)，更強的持續(xù)對話能力

思必馳全雙工交互技術(shù)，讓更流暢的多輪對話成為常態(tài)，說法更自由。

l連續(xù)交互免喚醒

過去，半雙工狀態(tài)下，用戶的跨領(lǐng)域交互每次交互都需要重新喚醒，于是，免喚醒技術(shù)成為改善體驗的焦點。近些年，免喚醒技術(shù)已不是新鮮方案，有的采用“便捷喚醒詞定制”，有的采用“喚醒+識別理解一體化”方案，但都存在著諸如“漏字”這類一系列的風(fēng)險：

“你好小馳明天天氣如何?”

漏字通常出現(xiàn)在喚醒詞和后面識別文本連接的地方，也就是句子中段。當系統(tǒng)在識別過程中漏掉“明”字時，就會造成時間信息不清晰(“明天”還是“今天”?)，系統(tǒng)無法明確用戶的真正時間指令。而現(xiàn)在，思必馳全雙工技術(shù)方案可實現(xiàn)一次喚醒，在多個領(lǐng)域持續(xù)交互，跨領(lǐng)域指代消解。

l動態(tài)斷句

在日常生活中，很多用戶說話會出現(xiàn)拖音現(xiàn)象，說話過程中，有思考/間斷的過程，因此會出現(xiàn)很多半截句，簡單粗暴的調(diào)整語音端點檢測閾值的做法往往會帶來對話卡頓的現(xiàn)象。

半雙工狀態(tài)下，對話系統(tǒng)設(shè)定了固定的停頓檢測時間，用戶還未表達完整句子稍微一猶豫/停頓，會被語音端點檢測系統(tǒng)誤斷句，造成輸入內(nèi)容不完整，機器無法理解。

思必馳全雙工交互技術(shù)則在云端根據(jù)用戶說話節(jié)奏和內(nèi)容，忽略無意義噪聲，動態(tài)斷句，既能保證用戶輸入的完整性，又能保證較快的響應(yīng)速度。在回復(fù)方面，則可以適時的回復(fù)“嗯”等接話話術(shù)，系統(tǒng)打破了對用戶說話規(guī)則的要求，用戶可以按照自身的說話習(xí)慣來進行交流，交互過程更加人性化。

l語義打斷，避免誤打斷

在半雙工狀態(tài)下，語音合成播放時很難進行打斷，在一些終端設(shè)備上，行業(yè)內(nèi)普遍采用的打斷方式是“快捷喚醒詞打斷”，說法十分固定，無法泛化，需要定制多個喚醒詞，當用戶想打斷的時候，必須要重復(fù)喚醒詞，容易發(fā)生誤打斷。同時，對話打斷對環(huán)境有較高要求，在有噪聲的時候，也容易被誤打斷。

思必馳全雙工交互技術(shù)可在對話的過程中，實時語義打斷，不容易出現(xiàn)誤打斷，同時，對沒有語義的輸入，則不會打斷語音合成播放。

這一技術(shù)在智能客服的領(lǐng)域?qū)蟠蟾纳葡M者的體驗，消費者可以隨時隨刻打斷機器人客服的無效對話信息，進行信息咨詢。

如何判斷什么時候接話，什么時候反問，機器需要有智能決策的能力，這也是思必馳全雙工技術(shù)的一大特性：主動交互。根據(jù)用戶表達狀態(tài)，如“正常說話”、“主動沉默”、“無意義表達”等狀態(tài)，來給予相應(yīng)的主動反饋。

思必馳全雙工交互技術(shù)支持智能判斷，尤其是能夠主動打斷用戶的復(fù)雜冗長表達，主動打破沉默僵局，實現(xiàn)流暢自然的用戶口語交流習(xí)慣。當識別到用戶正常表達時，機器等待說完后答復(fù)反饋;當用戶大段無意義輸入或表達過于復(fù)雜時，會主動打斷并提示反問;在交互過程中，當用戶沉默時，則可以主動發(fā)起對話交互。

同時，經(jīng)過反復(fù)打磨和優(yōu)化，該技術(shù)對系統(tǒng)功耗幾乎無影響，實現(xiàn)低功耗下的最優(yōu)質(zhì)體驗。

思必馳全雙工語音交互

實踐，是檢驗真理的唯一標準

目前，思必馳全雙工交互技術(shù)已展開全線方案滲透，包括AIOT方案和企業(yè)信息智能服務(wù)，深入作用汽車、家居、電子、教育、醫(yī)療、政務(wù)、金融、物流、酒店等場景。以音箱方案為例，接入全雙工系統(tǒng)后，這款“智能助理設(shè)備終端”將更似真人助理，更具備人類親和力的特質(zhì)和邏輯思維能力，整個對話體驗更加自然流暢。