[釘科技專訪]假如用“春風(fēng)十里”形容速度之快,用在人工智能領(lǐng)域應(yīng)該再合適不過。CB Insights數(shù)據(jù)表明,2016年,人工領(lǐng)域的共有涵蓋13個種類的超過1600家公司獲得了超過90億美元的融資?!稙蹑?zhèn)指數(shù):全球人工智能發(fā)展報告2016》則顯示,2016年,全球每10.9個小時誕生一家人工智能企業(yè)。
市場并不缺乏概念炒作者,但技術(shù)的發(fā)展更需要應(yīng)用和落地,在釘科技看來,從相關(guān)分支切入,再在細分領(lǐng)域產(chǎn)品化,單點滲透,或許是在現(xiàn)階段突破市場的最好方式。
自2012年涉足領(lǐng)域,搜狗就專注于自然交互和深度計算,以語言為核心,展開以文字和語音為主的交互方式。去年8月,搜狗推出知音引擎,力圖讓用戶獲得更自然的語音交互。時隔一年,搜狗聽寫推出,主打語音實時轉(zhuǎn)文字功能。為更深入了解產(chǎn)品及其背后的戰(zhàn)略構(gòu)想,釘科技與另幾家媒體小伙伴對搜狗語音交互技術(shù)中心總經(jīng)理王硯峰進行了專訪。
搜狗語音交互技術(shù)中心總經(jīng)理 王硯峰
搜狗聽寫:解放雙手,用嘴寫作
國內(nèi)的職業(yè)寫手以及記者等媒體從業(yè)人員的總數(shù)接近6500萬,即便面對龐大的人口總數(shù),也并不能被作為小眾,這也正是搜狗聽寫主推的用戶群體。
記者常常面臨這樣的問題:每天要應(yīng)付多個不同場合的采訪工作,稿件又需要即時撰寫發(fā)布,這就代表,即便是在從一地到另一地的路上,也要爭分多秒。不過,面對時長不短且可能有雜音、地方口音干擾的錄音材料,有時也會感到無所適從。
職業(yè)寫手倒是不需要打一槍換一個地方,不過,這類人通常與鍵盤有著更長時間的接觸,“指尖疲勞癥”或許比記者更甚,但是,從椅子到沙發(fā),從沙發(fā)到床的“陣地”轉(zhuǎn)換,并不能解決這種“痛楚”。
針對上述痛點,搜狗聽寫從以下五個方面入手:一是長時語音聽寫,即連續(xù)錄音+實時轉(zhuǎn)文字;二是文本錄音同時保存,無縫對齊;三是支持重點標注;四是只是邊聽邊改;五是支持多客戶端同步,可以用網(wǎng)頁端進行比較重要的編輯工作。細節(jié)上,還支持自動加書名號等操作。
如此,記者就可以在場景方便的情況下隨時整理資料甚至撰寫稿件,而職業(yè)寫手,更是可以躺在床上,或者望著窗外,寫作只需要動動嘴。
王硯峰表示,事實上,搜狗聽寫不僅是專門為文字工作者定制的應(yīng)用,也是每個人都會需要的應(yīng)用,比如,語音便簽、社交分享這些功能就是很普遍的需要。搜狗希望在產(chǎn)品上做出不一樣的地方,幫助用戶切實解決問題,并且通過差異點,同時體現(xiàn)在技術(shù)和產(chǎn)品方面的能力。
搜狗知音:屬性開放,持續(xù)升級
搜狗聽寫,依托的是去年8月發(fā)布的“知音”語音交互引擎。當(dāng)天,搜狐網(wǎng)絡(luò)大廈電梯里的LED屏還在播放搜狗十周年生日的一段視頻。
王硯峰表示,“知音”在語音識別、語音糾錯、知識圖譜信息整合能力及多輪對話理解方面具有技術(shù)優(yōu)勢。而這種優(yōu)勢,在搜狗方面看來,得益于輸入法及搜索積累下來的大量數(shù)據(jù)對于其語義理解能力的錘煉。
聽寫產(chǎn)品與知音引擎相隔一年,這一年,被王硯峰描述為“知音努力學(xué)習(xí)的一年”。王硯峰表示,過去一年,語音識別技術(shù)服務(wù)了更多用戶。2015年5月份,每年會有5500萬的語音DAU。2016年1月份,增長到1.25億。今年5月份已經(jīng)達到了2.6億的規(guī)模。這個過程,也是知音在大數(shù)據(jù)的基礎(chǔ)上自主學(xué)習(xí)的過程。
據(jù)了解,今年5月份,搜狗語音的核心技術(shù)在應(yīng)用方面取得了突破,在GMIS大會上,語音跟人工速記進行了五輪PK,最終的結(jié)果是4:1完勝。因為當(dāng)時現(xiàn)場的網(wǎng)絡(luò)問題,導(dǎo)致其中有一場的粵語識別沒有聯(lián)網(wǎng)。搜狗方面表示,到現(xiàn)在為止,機器的識別能力跟普通的速記相比已經(jīng)取得了本質(zhì)性的領(lǐng)先。在這樣的過程中,機器本身有處理速度的好處,還有知識的好處,普通的速記不太可能知道那么多的專業(yè)術(shù)語,不太可能知道那么多的英文。在這個過程中,機器是充分的把自己的處理速度、處理能力,以及對知識的權(quán)威性發(fā)揮出來。這是聽寫產(chǎn)品得以在今年發(fā)布的底氣。
后續(xù)會著力解決兩個方面的問題,王硯峰如是說:一是遠場,因為交互不可能局限于手機這類個人屬性較高的終端;二是降噪,包括環(huán)境中的聲音干擾,包括地方口音對識別準確度的影響都屬于這一范疇。
至于知音引擎的發(fā)展方向,王硯峰說,知音在一定程度上會以O(shè)S的形式存在,為不同類型的終端產(chǎn)品賦能。
智能硬件:技術(shù)落實,把握入口
開放的屬性,這是知音引擎誕生時就具備的。開放,就是在出行等垂直領(lǐng)域的延伸,為相關(guān)合作伙伴提供語音交互支持,向更多的終端入口進行布局。畢竟,人工智能或者語音交互作為技術(shù),終究需要實際的載體。
手機等終端,特別是電視以及車載系統(tǒng),都是搜狗所關(guān)注的品類。從去年開始,搜狗進行了AI技術(shù)的輸出,跟小米、魅族等手機廠商合作。在傳統(tǒng)的家電領(lǐng)域,跟各個行業(yè)的龍頭合作,電視是跟創(chuàng)維合作,白電跟海爾合作等等。
賦能合作伙伴之外,搜狗也試圖憑借自身實力,在智能終端領(lǐng)域延伸出方向。從大方向上,王硯峰表示,搜狗自主推出的終端產(chǎn)品前期會集中在可穿戴設(shè)備和智能家居上,手機、電視不是現(xiàn)階段所考慮的,而硬件的產(chǎn)出,有可能會選擇與第三方合作。
當(dāng)被問到是否會考慮進軍當(dāng)前比較火爆的智能音箱市場,王硯峰給出了自己的判斷,沒有被“繁榮”的現(xiàn)象所影響,王硯峰很冷靜的表示:相對于手機、電視等終端,音箱產(chǎn)品由于交互性(屏幕)方面的短板,并不具備獨特性或者說不可替代性,從需求上來看,量級優(yōu)勢也不明顯,也就不足以釋放技術(shù)能力或者說承擔(dān)“用戶教育”的功能,因此暫時不會考慮推出相關(guān)的自主產(chǎn)品。
- QQ:61149512