近日,OpenAI和Google相繼召開發(fā)布會(huì),人機(jī)語音對(duì)話技術(shù)進(jìn)入了新的歷史時(shí)刻。

隨著人工智能的飛速發(fā)展,我們已經(jīng)見證了大模型如何改變了數(shù)據(jù)處理和自然語言理解的領(lǐng)域。然而,除了大模型的規(guī)模增長(zhǎng),大模型的另一個(gè)重要發(fā)展方向是其外擴(kuò)工具的增強(qiáng),這將極大地提升了模型的交互性、適應(yīng)性和實(shí)用性。這些外擴(kuò)工具,例如插件或代碼,使大模型能夠更好地與其他系統(tǒng)集成,從而提供更豐富的反饋和增強(qiáng)用戶體驗(yàn),并且有希望產(chǎn)生統(tǒng)計(jì)規(guī)律的能力。通過這些外擴(kuò)工具,大模型不僅能夠處理更復(fù)雜的數(shù)據(jù),還能夠根據(jù)用戶的具體需求提供定制化的解決方案,這在多變的現(xiàn)實(shí)世界應(yīng)用中顯得尤為重要。

當(dāng)然,除了大模型這一技術(shù)路徑,人工智能還需要跨學(xué)科的合作和小樣本學(xué)習(xí)的創(chuàng)新方法,這類方法與大模型的“大力出奇跡”思路不同,而是聚焦更少的數(shù)據(jù)進(jìn)行邏輯抽象和演繹。比如在聲學(xué)領(lǐng)域,更多是依賴物理規(guī)律的Know How來去處理分析,并不需要大規(guī)模的算力和數(shù)據(jù)。因其在語音對(duì)話、實(shí)時(shí)轉(zhuǎn)寫和同聲傳譯中的應(yīng)用,正逐漸成為推動(dòng)技術(shù)前沿的關(guān)鍵因素。也正是如此,美國OpenAI和Google的發(fā)布會(huì)都重磅演示了語音對(duì)話的應(yīng)用。

聲學(xué)作為物理學(xué)的一個(gè)分支,研究聲音的產(chǎn)生、傳播和接收。在人工智能領(lǐng)域,聲學(xué)技術(shù)被廣泛應(yīng)用于提高機(jī)器對(duì)人類語言的理解和處理能力。通過精確的聲音捕捉和分析,可以極大地提升語音對(duì)話系統(tǒng)的交互質(zhì)量,使之更加自然和高效。聲學(xué)計(jì)算不僅在消費(fèi)領(lǐng)域具有關(guān)鍵的作用,而且對(duì)于國家安全也是至關(guān)重要。

在聲學(xué)計(jì)算和人工智能的交叉領(lǐng)域,我國更是具有獨(dú)特的技術(shù)優(yōu)勢(shì)和發(fā)展?jié)摿?。首先,我國在聲學(xué)基礎(chǔ)研究和工程應(yīng)用方面擁有深厚的歷史積淀和技術(shù)積累。幾十年來,我國在聲學(xué)傳感器、信號(hào)處理芯片以及相關(guān)算法的研發(fā)上取得了顯著進(jìn)步。另外,小樣本學(xué)習(xí)作為一種新興的學(xué)習(xí)范式,為我國在聲學(xué)模型的快速迭代和優(yōu)化提供了新的方法。這種方法可以減少對(duì)大量標(biāo)注數(shù)據(jù)的依賴,使模型更快適應(yīng)新的語言環(huán)境和聲音特征,尤其適合處理多樣化和動(dòng)態(tài)變化的語音數(shù)據(jù)。

比如,在語音對(duì)話系統(tǒng)中,聲學(xué)模型用于捕捉語音的細(xì)微差別,如音調(diào)、節(jié)奏和強(qiáng)度,這些都是理解語意和情感的重要線索。例如,通過分析語調(diào)的上升和下降,系統(tǒng)可以判斷用戶的問題或是陳述,從而做出更準(zhǔn)確的反應(yīng)。此外,聲學(xué)信號(hào)處理技術(shù)還可以用于消除背景噪聲,提高語音識(shí)別的準(zhǔn)確性,這在嘈雜環(huán)境中尤為重要。這個(gè)時(shí)候我們可以理解為計(jì)算機(jī)具有了英語四六級(jí)的水平。事實(shí)上,這段時(shí)間OpenAI和Google的發(fā)布會(huì)重點(diǎn)演示的還是這部分技術(shù),當(dāng)然由于大模型的加持可以使得語音對(duì)話更加有趣有效。

實(shí)時(shí)轉(zhuǎn)寫是另一個(gè)展示聲學(xué)應(yīng)用的典范。在會(huì)議或公共演講中,實(shí)時(shí)轉(zhuǎn)寫系統(tǒng)可以將說話人的話語即時(shí)轉(zhuǎn)換為文字,不僅便于記錄和回顧,還支持多語場(chǎng)景更好地理解交流內(nèi)容。聲學(xué)技術(shù)在此過程中確保了語音的清晰捕捉和快速處理,使轉(zhuǎn)寫盡可能精確,減少延遲。這個(gè)時(shí)候我們可以理解為計(jì)算機(jī)具有了英語專業(yè)八級(jí)的水平。聲智科技最近就將此項(xiàng)技術(shù)進(jìn)行了開放,并且在聲智App宣布了真免費(fèi)不綁定的永久服務(wù)。

更值得關(guān)注的是,聲智科技的實(shí)時(shí)轉(zhuǎn)寫服務(wù)不僅在近日宣布免費(fèi),還同時(shí)支持私有化部署。相對(duì)于SaaS來說,私有化部署能夠更好地保障數(shù)據(jù)安全和隱私安全,也就是說,聲智科技的實(shí)時(shí)轉(zhuǎn)寫功能只轉(zhuǎn)寫不錄聲,將數(shù)據(jù)泄露給第三方的風(fēng)險(xiǎn)降到最低。

同聲傳譯則是一種更為復(fù)雜的應(yīng)用,它要求對(duì)話系統(tǒng)在幾乎無延遲的情況下,將一種語言的口述即時(shí)翻譯成另一種語言。這不僅需要高效的聲學(xué)處理技術(shù),還需要強(qiáng)大的語義理解和語言生成能力。聲學(xué)模型在此中的作用是確保所有語音細(xì)節(jié)都被準(zhǔn)確捕獲和傳遞,為語義分析提供堅(jiān)實(shí)的基礎(chǔ)。這個(gè)時(shí)候我們可以理解為計(jì)算機(jī)具有了人類同聲傳譯的水平。

此外,交叉學(xué)科的進(jìn)展為聲學(xué)在人工智能中的應(yīng)用帶來了新的視角和技術(shù)。例如,物理學(xué)中的電磁理論可以幫助改進(jìn)麥克風(fēng)的設(shè)計(jì),使其更加敏感且能捕捉到更廣泛的頻率范圍?;瘜W(xué)則可以通過發(fā)展新材料來提高聲學(xué)設(shè)備的性能和耐用性。

總之,聲學(xué)在推動(dòng)語音對(duì)話、實(shí)時(shí)轉(zhuǎn)寫和同聲傳譯技術(shù)的發(fā)展中發(fā)揮著不可或缺的作用。未來,隨著交叉學(xué)科的進(jìn)一步融合和小樣本學(xué)習(xí)技術(shù)的突破,我們可以期待聲學(xué)技術(shù)在更多人工智能應(yīng)用中展現(xiàn)更大的潛力。