2024年11月,昆侖萬維「天工大模型4.0」o1版和4o版正式公開發(fā)布,并啟動邀請測試。

今天,在2025年1月6日,我們正式將「天工大模型4.0」o1版和4o版同步上線,并全量登陸天工網(wǎng)頁和APP,人人免費可用!

作為國內(nèi)第一款中文邏輯推理能力的o1模型(Skywork o1),不僅包含上線即開源的模型,還有兩款性能更強的專用版本。經(jīng)過全方位的技術(shù)棧升級和模型優(yōu)化,由昆侖萬維自研的Skywork o1系列能熟練處理各種推理挑戰(zhàn),包括數(shù)學(xué)、代碼、邏輯、常識、倫理決策等問題。

「天工大模型4.0」4o版(Skywork 4o)是由昆侖萬維自研的多模態(tài)模型,其賦能的實時語音對話助手Skyo,則是一個具備情感表達能力、快速響應(yīng)能力、多語言流暢切換的智能語音對話工具,為用戶帶來溫暖貼心、流暢實時的對話體驗。

當(dāng)前,這兩款模型已正式登陸昆侖萬維旗下天工web與APP,全面向用戶開放。

圖片1.png

天工AI官方地址:https://www.tiangong.cn/ (進入后可直接體驗o1版)

01.

Skywork o1為用戶帶來更極致的推理能力,正式上線天工web

Skywork o1在邏輯推理任務(wù)上性能的大幅提升,得益于天工三階段自研的訓(xùn)練方案:

推理反思能力訓(xùn)練:Skywork o1通過自研的多智能體體系構(gòu)造高質(zhì)量的分步思考,反思和驗證數(shù)據(jù)。通過高質(zhì)量的、多樣性的長思考數(shù)據(jù)對基座模型進行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)。此外,我們在版本迭代中通過大規(guī)模使用自蒸餾和拒絕采樣,顯著提升了模型的訓(xùn)練效率和邏輯推理能力。

推理能力強化學(xué)習(xí):Skywork o1團隊研發(fā)了最新的適配分步推理強化的Skywork o1 Process Reward Model(PRM)。實驗證明Skywork-PRM可有效的捕捉到復(fù)雜推理任務(wù)中間步驟和思考步驟對最終答案的影響。結(jié)合自研分步推理強化算法進一步加強模型推理和思考能力。

推理planning:基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實現(xiàn)和公開。Q*算法落地也大大提升了模型線上推理能力。

相較于之前的版本,今天正式上線的Skywork o1進行了重磅升級,主要體現(xiàn)在以下三個方面:

1.PRM優(yōu)化

通過采用高效的數(shù)據(jù)篩選策略,僅依賴開源偏序數(shù)據(jù)集,Skywork-Reward-27B的獎勵模型(RM)在RewardBench上超過此前排名第一的Nvidia-340B模型,并獲得了RewardBench官方的認可轉(zhuǎn)載。此外,對獎勵模型的優(yōu)化函數(shù)進行了詳盡的增廣實驗,結(jié)果發(fā)現(xiàn)Bradley-Terry損失函數(shù)在大多數(shù)場景中具有良好的適配性。

圖片2.png

圖1丨天工自研Skywork-Reward(論文鏈接:https://arxiv.org/abs/2410.18451)

PRM應(yīng)用場景擴充:相比上個版本主要側(cè)重于數(shù)學(xué)與代碼, 新版PRM增加了對更多常見推理領(lǐng)域的支持,例如常識推理、邏輯陷阱、倫理決策等。除了推理領(lǐng)域外,也針對通用領(lǐng)域(寫作、聊天),以及多輪對話構(gòu)造相應(yīng)訓(xùn)練數(shù)據(jù),提供了全場景的覆蓋。

PRM模塊化評估能力:Skywork-PRM側(cè)重優(yōu)化了對o1風(fēng)格思維鏈的試錯與反思驗證能力的支持,細粒度地為強化學(xué)習(xí)與搜索提供了更準(zhǔn)確的獎勵信號。

2.基于Q*算法的推理系統(tǒng)優(yōu)化

Q*是一種通過借鑒人類大腦中“system 2”的思考方式,我們將大型語言模型(LLMs)的多步推理視作一個啟發(fā)式搜索問題,并提出Q*線上推理框架配合模型在線思考,用以在推斷過程中進行審慎規(guī)劃,從而指導(dǎo) LLM 的解碼過程。具體來說,Q*通過學(xué)習(xí)一個 Q-value 模型作為啟發(fā)式函數(shù)來估計預(yù)期的未來回報,從而能夠在不針對當(dāng)前任務(wù)微調(diào) LLM 的情況下,有效地指導(dǎo) LLM 選擇最有前景的下一步推理。基于天工自研的Q*線上推理算法配合模型在線思考,不僅避免了大量的計算開銷,也降低了在其他任務(wù)上性能退化的風(fēng)險。

圖片3.png

圖2丨天工自研Q*(論文鏈接:https://arxiv.org/abs/2406.14283)

模塊化的樹形結(jié)構(gòu)推理:通過高質(zhì)量的、多樣性的長思考數(shù)據(jù)對基座模型的預(yù)訓(xùn)練和監(jiān)督微調(diào),Skywork o1已經(jīng)具備了結(jié)構(gòu)化輸出回答的能力,即通過對推理過程的統(tǒng)籌規(guī)劃進而對模型回答進行自動化分層輸出,并且在推理過程中穿插反思和驗證。因此,考慮到o1-style的回答通常在回復(fù)長度上遠超傳統(tǒng)模型,現(xiàn)有planning方法中以sentence作為step的劃分方式表現(xiàn)得過于低效且容易產(chǎn)生over-thinking的現(xiàn)象。為此,Skywork o1 采用以 module 作為 step 的規(guī)劃方式,在一定程度上提升了規(guī)劃效率,同時讓 PRM 能夠看到更完整的模塊化回答,從而做出更準(zhǔn)確的判斷并指導(dǎo) LLM 進行推理。

自適應(yīng)搜索資源分配:現(xiàn)有的已開源o1-style模型在處理簡單問題上往往存在over-thinking的現(xiàn)象,把簡單的問題復(fù)雜化并且反復(fù)驗證,造成計算資源的浪費。Skywork o1采用了自適應(yīng)分配搜索資源的方式,在搜索開始之前對用戶query進行難度預(yù)估,自適應(yīng)地控制搜索樹的寬度和深度,在簡單的問題上做到快速給出回答的效果,在復(fù)雜題目上做到反復(fù)多輪驗證從而提高回答的準(zhǔn)確率。

3.創(chuàng)新性提出Step-DAPO算法,力爭解決訓(xùn)練效果不穩(wěn)定、計算資源開銷過大等問題

針對現(xiàn)有RLHF算法在落地過程中存在獎勵信號稀疏,訓(xùn)練效果不穩(wěn)定,計算資源開銷過大等問題,昆侖萬維天工團隊提出了一種新的step-level離線強化學(xué)習(xí)算法,DAPO 首先使用一個評估函數(shù)來預(yù)測每一步的推理準(zhǔn)確性,從而為優(yōu)化生成策略提供密集的信號,隨后DAPO 會根據(jù)每個狀態(tài)-動作對的優(yōu)勢來調(diào)整策略比率,從而優(yōu)化推理步驟的生成。此外,DAPO 中的 Actor 和 Critic 組件分別獨立訓(xùn)練,避免了在類似 PPO 算法常見的“Actor-Critic”共同訓(xùn)練不穩(wěn)定問題。

圖片4.png

圖3丨天工自研Step-DAPO(論文鏈接:https://arxiv.org/abs/2412.18279)

更多關(guān)于Skywork o1的技術(shù)報告將陸續(xù)發(fā)布,敬請期待。

全面升級且正式上線的Skywork o1 Lite / Skywork o1 Preview大幅提升了數(shù)學(xué)、代碼和邏輯推理能力。我們對其進行標(biāo)準(zhǔn)數(shù)學(xué)基準(zhǔn)測試(包括GSM8k、MATH、Gaokao、OlympiadBench、AIME-24以及AMC-23),以及在HumanEval、MBPP、LiveCodeBench及BigCodeBench這四項代碼基準(zhǔn)測試上評估了Skywork o1的代碼能力。

圖片5.png

表1丨Skywork o1在數(shù)學(xué)基準(zhǔn)評測上的表現(xiàn)

圖片6.png

表2丨Skywork o1在代碼基準(zhǔn)評測上的表現(xiàn)

*備注:對于BigCodeBench,我們采用它的instruct子集進行測試

可以看出,在數(shù)學(xué)、代碼基準(zhǔn)測試中,Skywork o1的能力表現(xiàn)逼近o1-mini,顯著優(yōu)于行業(yè)常規(guī)通用大模型。

與此同時,針對邏輯推理測試,我們專門創(chuàng)建了一個私有評估集用于更好的評估類o1模型的思考,規(guī)劃以及反思等能力。我們私有評估集包含20種問題類型,每種問題類型包含30條不同難度或約束條件的問題樣本(注:我們用于此項評測的邏輯推理數(shù)據(jù)集不久后將隨Skywork o1技術(shù)報告一并開源)。

評估集中所有問題類型和樣本都經(jīng)過挑選及人工校驗,通常來說需要模型具備較強類人邏輯推理能力才能解決。經(jīng)驗證,目前評估集中大多數(shù)問題哪怕是對于業(yè)界?Tier 1級的常規(guī)通用大模型(例如GPT-4o或者Claude-sonnet)都是極具挑戰(zhàn)性的。

我們評估集中若干個典型問題類型:

算24:給定若干個數(shù)字和目標(biāo),如何在一定約束條件的前提下使用給定的數(shù)字計算得到目標(biāo)。

條件邏輯:這基于已知條件進行邏輯推理的約束滿足問題。解題目標(biāo)是通過分析這些約束條件之間的關(guān)系(互斥性或數(shù)量等),找出滿足所有約束的唯一解。

密碼:給定一個用某種方法加密的原文到密文樣的樣例,推測一個新的密文所對應(yīng)的原文。

最小和:已知若干個整數(shù)數(shù)的乘積,求這些整數(shù)所能達到的最小和。

數(shù)獨:9×9的數(shù)字框,要求每一行、每一列以及每個3×3的小框中的9個數(shù)字都互不相同。

一個問題類型涵蓋該問題的多個變種。以“算24”為例,該問題類型涵蓋的變種如下:

經(jīng)典:如何用5, 5, 5, 1通過四則運算得到24。

變種1(目標(biāo)變化):如何用4, 3, 5, 7通過四則運算得到36。

變種2(額外約束):如何用4, 3, 5, 7通過四則運算得到36,不能改變數(shù)字順序也不能使用括號。

變種3(額外約束):用4, 5, 10通過四則運算得到24,要求三個數(shù)中有一個數(shù)要使用兩次。

變種4(可自由使用數(shù)字):如何用8個8得到1000。

下表中我們列舉了在我們專有評測集上Skywork o1對比主流大模型的性能差異。同樣的,Skywork o1的能力著優(yōu)于常規(guī)通用大模型,表現(xiàn)僅次于o1-mini。

圖片7.png

表3丨Skywork o1在邏輯推理評測上的表現(xiàn)

*備注:由于API超時的原因,OpenAI的o1正式版無有效評測結(jié)果。

那么接下來,我們快速來看下Skywork o1在它擅長的數(shù)學(xué)、代碼和邏輯推理上的真實表現(xiàn)。首先,一道樣本量接近40的“計算標(biāo)準(zhǔn)差”問題來考考它,這次的樣本量對于o1來說也并不算是一個“輕松”的計算過程。

圖片8.png

經(jīng)過5分鐘的思考和總結(jié),非常絲滑,Skywork o1給出了正確答案,不僅先展現(xiàn)了計算過程,還又給出了總結(jié)版的六大計算步驟。接下來,再用一個很容易出錯的“數(shù)獨”題試試它的推理能力。

圖片9.png

僅用時45秒,Skywork o1模擬著人的思考方式,給出了最終答案,同時還自我驗證了一遍邏輯推理過程,以保證無遺漏。此外,我們輸入一個長文本推理問題測試下它的邏輯能力和回答效果。

圖片10.png

不出所料,即使面對有干擾性的問題,Skywork o1也絲毫沒有亂了陣腳,有序地展示了思考過程和推理邏輯,并給出了正確答案。

02.

Skywork 4o賦能的Skyo,已全面登陸天工APP

圖片11.png

圖4丨天工APP中Skyo入口與界面(來源:昆侖萬維)

通常情況下,用戶在使用智能語音對話系統(tǒng)時,有兩個因素將會影響使用體驗:響應(yīng)是否夠快、回復(fù)是否自然流暢。這兩點決定了語音對話?AI 的體驗有多逼近真人。

傳統(tǒng)的語音助手多采用語音識別,內(nèi)容理解與語音合成三階段的級聯(lián)方案。盡管被工業(yè)界廣泛應(yīng)用,但系統(tǒng)中多個模型模塊串聯(lián),使得模塊間信息傳遞損失,模型有時不能準(zhǔn)確理解用戶輸入語音的真實意圖。在對系統(tǒng)進行優(yōu)化時,還存在模塊之間相互制約影響,最終導(dǎo)致牽一發(fā)而動全身的情況,使得效果和響應(yīng)速度優(yōu)化都不夠理想。最終導(dǎo)致傳統(tǒng)方案的響應(yīng)延遲優(yōu)化困難、回復(fù)自然度有限,和語音?AI 對話更像在用指令操縱機器、而不是和真人交流。

為了達成“像和真人一樣說話聊天”的效果,Skyo 堅持采用更先進的創(chuàng)新路線,通過多模態(tài) LLM 端到端建模,來解決這個難題。

圖片12.png

圖5丨Skyo所采用的語音對話框架(來源:昆侖萬維)

得益于上述團隊自研的多模態(tài)端到端訓(xùn)練方案,Skyo 真正突破了傳統(tǒng)方案的效果邊界,整個框架可以分為以下流程:

1.語音輸入(Speech Query):用戶通過語音說出問題或請求,這些語音內(nèi)容會進入系統(tǒng),作為初始的輸入信號。

2.語音編碼?(Speech Encoder):系統(tǒng)中的語音編碼器(Speech Encoder)會將語音轉(zhuǎn)化為具有語義特征的表征向量。

3.適配轉(zhuǎn)換(Adapter):接著,語義表征通過適配器模塊映射到LLM可理解的輸入空間,確保它能被核心的智能模型(LLM)理解,實現(xiàn)語音到文本語義的無縫轉(zhuǎn)換。

4.大語言模型(LLM):經(jīng)過適配的語音表征輸入到大語言模型中,LLM通過多模態(tài)處理能力生成響應(yīng)完成任務(wù)。

5.語音輸出(Speech Token):框架支持語音令牌(Speech Token)的直接輸出,從而實現(xiàn)了跨模態(tài)的端到端輸出。進一步通過擴散模型,系統(tǒng)將speech token重建為真實的語音回復(fù)。

通過這個端到端框架,系統(tǒng)能夠像人類一樣,聽懂用戶的語音,提供自然、流暢的互動體驗。該端到端框架還具有以下幾個鮮明的特性:

1.極低響應(yīng)延遲,實時打斷:得益于端到端建模,Skyo 能根據(jù)語義判斷用戶是否已完整表達語義,再加上極致的延遲優(yōu)化,Skyo 回復(fù)速度幾乎與真人無異。

2.語音多維度理解:除了能夠轉(zhuǎn)錄語音中的文本內(nèi)容,Skyo 還能理解輸入語音中的語速、語調(diào)、情感等信息,從而做到回應(yīng)用戶的情緒,給出貼心自然的情感化回復(fù)。

3.擬真人的自然回復(fù):回復(fù)內(nèi)容方面,通過自然聊天感控制技術(shù),Skyo 的回復(fù)有了“人情味”;聲音表現(xiàn)力方面,Skyo 用超過百萬小時的語音數(shù)據(jù)進行大規(guī)模預(yù)訓(xùn)練,模型學(xué)習(xí)到了真實世界里各種場景、不同風(fēng)格的說話表達方式。結(jié)合多模態(tài)理解能力,Skyo 生成的回復(fù)聲音可以適配用戶的情緒、對話上下文,回復(fù)聲音的表現(xiàn)力多變且擬真。

基于這些成果,Skyo 的上線是我們在智能語音交互技術(shù)方向,從“操縱機器”邁向“和真人交流”的重要一步。

為了達到這樣流暢且擬人的交互效果,昆侖萬維堅持自主研發(fā)Skyo,研發(fā)團隊擁有大量語音數(shù)據(jù)積累,并充分利用深厚的語音和音樂大模型的技術(shù)經(jīng)驗,搭建端到端自研先進鏈路,以保障Skyo能在多任務(wù)下表現(xiàn)出色,尤其在高強度多輪對話交互中仍能保持穩(wěn)定性和流暢性。

Skyo研發(fā)團隊通過構(gòu)建大規(guī)模高質(zhì)量、場景化、情感化和多樣化的語音對話語料庫,并基于先進的深度學(xué)習(xí)和大語言模型技術(shù)對其進行預(yù)訓(xùn)練與微調(diào),顯著增強了模型在對話場景中的上下文感知能力、情感理解能力和知識推理能力,從而提升其整體的對話連貫性、邏輯一致性及智能化水平。

03.

久久為功,堅定邁向AGI時代

我們相信,AGI 的實現(xiàn)將是科技創(chuàng)新的一大飛躍,它將極大地擴展我們的能力邊界,釋放人類潛能。

2024年初,昆侖萬維創(chuàng)始人周亞輝提出昆侖萬維的使命是實現(xiàn)通用人工智能,讓每個人更好地塑造和表達自我。過去兩年,公司已完成“算力基礎(chǔ)設(shè)施—大模型算法—AI應(yīng)用”全產(chǎn)業(yè)鏈布局,并構(gòu)建起由AI大模型、AI搜索、AI游戲、AI音樂、AI 社交、AI短劇組成的多元AI業(yè)務(wù)矩陣。

我們堅信,所有在模型與產(chǎn)品上進化的每一小步,都是邁向?qū)崿F(xiàn)通用人工智能的一大步。

鑄劍啟新程,昂首向未來。昆侖萬維仍會堅持以技術(shù)為底座,以產(chǎn)品為先鋒,給用戶帶來更好的使用體驗,為推動人工智能技術(shù)的發(fā)展和應(yīng)用做出貢獻,立志成為一家小而大美的國際化人工智能企業(yè)。

歡迎所有用戶登陸天工web或下載天工APP體驗最新「天工大模型4.0」o1版和4o版。