應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個(gè)人注冊登錄

階躍星辰發(fā)布新一代實(shí)時(shí)語音大模型 StepAudio 2.5 Realtime,支持情緒感知與人設(shè)自定義

2026-05-11 08:59 IT之家
關(guān)鍵詞:階躍星辰

導(dǎo)讀:階躍星辰發(fā)布了新一代實(shí)時(shí)語音大模型 StepAudio 2.5 Realtime,目前已全量上線,開發(fā)者可通過階躍星辰開放平臺接入使用。

  5 月 9 日消息,階躍星辰發(fā)布了新一代實(shí)時(shí)語音大模型 StepAudio 2.5 Realtime,目前已全量上線,開發(fā)者可通過階躍星辰開放平臺接入使用。

  該模型定位于打造更具“活人感”的 AI 對話體驗(yàn),重點(diǎn)圍繞副語言感知、人設(shè)自定義與對話能力三個(gè)方向進(jìn)行技術(shù)升級。

  從官方獲悉,StepAudio 2.5 Realtime 的核心突破在于其對“副語言”信息的處理能力。所謂副語言,指的是語調(diào)、語速、停頓乃至一聲嘆息或輕笑等文字以外的表達(dá)方式,這些細(xì)節(jié)恰恰是人類情感傳遞的主要載體。模型通過對這些元素的解讀,可以感知對話者的情緒狀態(tài)與潛在意圖,比如從低沉的聲線中察覺疲憊,或是從急促的語氣里識別出煩躁情緒,并據(jù)此動(dòng)態(tài)調(diào)整回應(yīng)的語氣與策略,旨在降低交互的生硬感,使其更像與真人交談。

  在人設(shè)靈活性方面,StepAudio 2.5 Realtime 將定義權(quán)完全交給用戶。開發(fā)者可以通過 API,從性格特質(zhì)、背景經(jīng)歷、個(gè)人好惡到語言習(xí)慣與對話邊界,對 AI 角色進(jìn)行精細(xì)化調(diào)節(jié)。這一能力的背后,是模型基于超過 10,000 個(gè)高質(zhì)量原生人設(shè),通過算法裂變生成的百萬級人設(shè)特征矩陣,并結(jié)合海量真實(shí)場景對話語料訓(xùn)練而來。針對深度角色扮演中常見的“人設(shè)崩塌”痛點(diǎn),開發(fā)團(tuán)隊(duì)進(jìn)行了專門的 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))對齊優(yōu)化。據(jù)官方介紹,即使在極端情境的壓力測試下,模型依然能保持高度穩(wěn)定、可信的角色一致性。同時(shí),該模型也內(nèi)置了 5 個(gè)預(yù)設(shè)人設(shè)供用戶直接選擇體驗(yàn)。

  在整體對話能力上,該模型強(qiáng)調(diào)智商與情商的雙重躍升。除了深度理解復(fù)雜語義、應(yīng)對拋梗接梗等交流場景,模型還能靈活調(diào)用多領(lǐng)域知識以提供更深度的對話體驗(yàn),在應(yīng)用中既可扮演提供情緒價(jià)值的聊天搭子,也能模擬專業(yè) HR 進(jìn)行面試等嚴(yán)肅場景。

  根據(jù)官方發(fā)布的 2026 年 4 月評測數(shù)據(jù),該模型在五個(gè)測試維度中均位列第一。其中最能反映真實(shí)體驗(yàn)的主觀評測(手機(jī) App 真人對話打分)得分 80.41,高于 GPT-Realtime-1.5 的 68.01 和 Gemini Live 的 67.16;語音問答基準(zhǔn)得分為 79.80,約為 GPT-Realtime-1.5 的 1.5 倍。