[MODEL] 5 分鐘閱讀OraCore 編輯部

OpenAI 即時音訊模型瞄準語音互動

OpenAI 推出三個即時音訊模型,主打翻譯、轉錄和語音代理,讓開發者能做更即時的語音應用。

分享 LinkedIn
OpenAI 即時音訊模型瞄準語音互動

OpenAI 推出三個即時音訊模型,主打翻譯、轉錄和語音代理。

OpenAI 這次把重點放在語音。它一次端出三個模型:GPT-Realtime-2GPT-Realtime-TranslateGPT-Realtime-Whisper。講白了,就是把 AI 從「會聊天」推到「能即時聽懂、即時回話」。

這件事很實際。文字可以慢一拍。語音不行。你如果在會議、直播、錄音室,模型慢個 1 秒,體感就很卡。對使用者來說,那不是小瑕疵,是整個產品不好用。

OpenAI 這波不是只想把聲音做漂亮。它想解的是延遲、雜訊、口音、重疊說話這些老問題。說真的,這些才是語音 AI 的地獄關卡。

模型主要用途重點資訊
GPT-Realtime-2即時對話與推理給互動式語音代理用
GPT-Realtime-Translate語音翻譯支援 70+ 種語言
GPT-Realtime-Whisper即時轉錄邊講邊轉成文字

為什麼即時語音比聊天難

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

語音系統要處理的東西很多。它要聽口音,要分辨背景音,要抓句子還沒講完的空白。聊天模型可以等你打完字。語音模型沒有這種奢侈。

OpenAI 即時音訊模型瞄準語音互動

更麻煩的是,語音是連續流。人會插話,會停頓,會修正自己。模型如果太早回應,會打斷人。太晚回應,又像壞掉。這種節奏感,對產品體驗很傷。

所以即時音訊的難點,不是只有準不準。還包括反應快不快、能不能接住上下文、會不會在吵雜環境裡整個失準。這些都直接決定能不能上線。

  • 即時翻譯要處理 70+ 種語言
  • 即時轉錄要追上真實說話速度
  • 語音代理要邊聽邊推理
  • 噪音和重疊說話都會拉低體驗

三個模型各自做什麼

GPT-Realtime-2 是最像「語音版助手」的模型。它的用途是即時對話,像客服、助理、流程工具,甚至是要邊講邊查資料的內部系統。這類場景最怕卡頓,所以延遲比花俏功能更重要。

GPT-Realtime-Translate 則是跨語言溝通的主角。OpenAI 宣稱它支援 70+ 種語言。這代表它能切進國際會議、遠端協作、全球客服,還有創作者的多語內容工作流。

“We are making it possible for developers to build voice experiences that feel natural and responsive.”

OpenAI,GPT-Realtime 發表頁

GPT-Realtime-Whisper 負責轉錄。這看起來沒有即時代理那麼炫,但它很重要。字幕、會議紀錄、檔案搜尋、音訊編輯,很多工作都先靠轉錄打底。沒有它,上層應用很難做。

  • GPT-Realtime-2 偏向對話品質
  • GPT-Realtime-Translate 偏向跨語言溝通
  • GPT-Realtime-Whisper 偏向語音轉文字
  • 三者都瞄準低延遲場景

開發者會先比什麼

開發者不會只看 Demo。Demo 很會演。真實環境很殘酷。大家會先測延遲,看它從收音到回應要多久。再來是準確率,尤其是吵雜環境下的表現。

OpenAI 即時音訊模型瞄準語音互動

還有一個很現實的問題,是整合成本。API 好不好接,串流好不好做,錯誤處理麻不麻煩,這些都會影響採用速度。你如果要把它塞進產品,這些細節比行銷文案重要太多。

如果拿競品來看,AssemblyAIDeepgramRev AI 早就在語音辨識和轉錄市場打很久。OpenAI 的差別在於,它把「即時互動」拉到主戰場。

  • 延遲:越低越像真人
  • 雜訊:越能扛越能上線
  • 語言覆蓋:越廣越適合全球產品
  • 整合成本:越低越容易進開發流程

這對創作者和音訊團隊有什麼用

如果你在做 Podcast、音樂製作、直播,這類模型就很實用。即時轉錄可以直接把訪談、排練、會議內容變成文字,省掉後製整理的時間。對很多團隊來說,這不是加分,是省人力。

翻譯模型也有用。跨國合作時,語言常常比技術更卡。你可以有很強的製作能力,但只要溝通慢半拍,整個流程就拖住了。即時翻譯能讓遠端協作少掉很多摩擦。

我覺得更有趣的是語音代理。它可以幫你記 session note、查參考資料、提醒設備狀態,甚至在你手上拿著樂器時繼續工作。這種場景很適合音訊產業,因為人本來就不想一直切回鍵盤。

另外,這也會逼其他語音廠商加快腳步。像 AssemblyAIDeepgram 這些公司,接下來一定會更常被拿來跟 OpenAI 比延遲和穩定度。

語音市場其實早就在變

語音 AI 不是新東西。早期大家先做的是 ASR,也就是語音轉文字。後來才慢慢往翻譯、摘要、客服、語音助理走。現在差別在於,大家不再滿足於離線處理。

現在的產品要求很直接。要快,要穩,要能串 API,要能處理真實世界的髒資料。這些條件少一個,產品就很難進日常工作流程。說白了,模型再強,不能即時用也沒用。

OpenAI 這次的方向,代表語音互動開始往主流軟體滲透。會議工具、客服系統、創作軟體、跨語言協作平台,都可能把這類模型當成底層能力。

接下來最值得看什麼

接下來要看的,不是發表文案,而是實測數字。延遲是多少。70+ 語言裡面,哪些語言真的穩。遇到口音、背景音、多人同時講話時,表現會掉多少。

如果 OpenAI 真的把即時語音做穩,開發者會很快把它塞進產品。反過來說,如果它只是在 Demo 很漂亮,市場很快就會用腳投票。語音工具最殘酷的地方,就是一用就知道差別。

我會建議開發者先想一件事:你的產品需要的是轉錄、翻譯,還是能即時回話的代理?答案不同,架構就完全不同。這次 OpenAI 給了三條路,接下來就看你要走哪一條。