OpenAI 即時音訊模型瞄準語音互動
OpenAI 推出三個即時音訊模型,主打翻譯、轉錄和語音代理,讓開發者能做更即時的語音應用。

OpenAI 推出三個即時音訊模型,主打翻譯、轉錄和語音代理。
OpenAI 這次把重點放在語音。它一次端出三個模型:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。講白了,就是把 AI 從「會聊天」推到「能即時聽懂、即時回話」。
這件事很實際。文字可以慢一拍。語音不行。你如果在會議、直播、錄音室,模型慢個 1 秒,體感就很卡。對使用者來說,那不是小瑕疵,是整個產品不好用。
OpenAI 這波不是只想把聲音做漂亮。它想解的是延遲、雜訊、口音、重疊說話這些老問題。說真的,這些才是語音 AI 的地獄關卡。
| 模型 | 主要用途 | 重點資訊 |
|---|---|---|
| GPT-Realtime-2 | 即時對話與推理 | 給互動式語音代理用 |
| GPT-Realtime-Translate | 語音翻譯 | 支援 70+ 種語言 |
| GPT-Realtime-Whisper | 即時轉錄 | 邊講邊轉成文字 |
為什麼即時語音比聊天難
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
語音系統要處理的東西很多。它要聽口音,要分辨背景音,要抓句子還沒講完的空白。聊天模型可以等你打完字。語音模型沒有這種奢侈。

更麻煩的是,語音是連續流。人會插話,會停頓,會修正自己。模型如果太早回應,會打斷人。太晚回應,又像壞掉。這種節奏感,對產品體驗很傷。
所以即時音訊的難點,不是只有準不準。還包括反應快不快、能不能接住上下文、會不會在吵雜環境裡整個失準。這些都直接決定能不能上線。
- 即時翻譯要處理 70+ 種語言
- 即時轉錄要追上真實說話速度
- 語音代理要邊聽邊推理
- 噪音和重疊說話都會拉低體驗
三個模型各自做什麼
GPT-Realtime-2 是最像「語音版助手」的模型。它的用途是即時對話,像客服、助理、流程工具,甚至是要邊講邊查資料的內部系統。這類場景最怕卡頓,所以延遲比花俏功能更重要。
GPT-Realtime-Translate 則是跨語言溝通的主角。OpenAI 宣稱它支援 70+ 種語言。這代表它能切進國際會議、遠端協作、全球客服,還有創作者的多語內容工作流。
“We are making it possible for developers to build voice experiences that feel natural and responsive.”
OpenAI,GPT-Realtime 發表頁
GPT-Realtime-Whisper 負責轉錄。這看起來沒有即時代理那麼炫,但它很重要。字幕、會議紀錄、檔案搜尋、音訊編輯,很多工作都先靠轉錄打底。沒有它,上層應用很難做。
- GPT-Realtime-2 偏向對話品質
- GPT-Realtime-Translate 偏向跨語言溝通
- GPT-Realtime-Whisper 偏向語音轉文字
- 三者都瞄準低延遲場景
開發者會先比什麼
開發者不會只看 Demo。Demo 很會演。真實環境很殘酷。大家會先測延遲,看它從收音到回應要多久。再來是準確率,尤其是吵雜環境下的表現。

還有一個很現實的問題,是整合成本。API 好不好接,串流好不好做,錯誤處理麻不麻煩,這些都會影響採用速度。你如果要把它塞進產品,這些細節比行銷文案重要太多。
如果拿競品來看,AssemblyAI、Deepgram、Rev AI 早就在語音辨識和轉錄市場打很久。OpenAI 的差別在於,它把「即時互動」拉到主戰場。
- 延遲:越低越像真人
- 雜訊:越能扛越能上線
- 語言覆蓋:越廣越適合全球產品
- 整合成本:越低越容易進開發流程
這對創作者和音訊團隊有什麼用
如果你在做 Podcast、音樂製作、直播,這類模型就很實用。即時轉錄可以直接把訪談、排練、會議內容變成文字,省掉後製整理的時間。對很多團隊來說,這不是加分,是省人力。
翻譯模型也有用。跨國合作時,語言常常比技術更卡。你可以有很強的製作能力,但只要溝通慢半拍,整個流程就拖住了。即時翻譯能讓遠端協作少掉很多摩擦。
我覺得更有趣的是語音代理。它可以幫你記 session note、查參考資料、提醒設備狀態,甚至在你手上拿著樂器時繼續工作。這種場景很適合音訊產業,因為人本來就不想一直切回鍵盤。
另外,這也會逼其他語音廠商加快腳步。像 AssemblyAI、Deepgram 這些公司,接下來一定會更常被拿來跟 OpenAI 比延遲和穩定度。
語音市場其實早就在變
語音 AI 不是新東西。早期大家先做的是 ASR,也就是語音轉文字。後來才慢慢往翻譯、摘要、客服、語音助理走。現在差別在於,大家不再滿足於離線處理。
現在的產品要求很直接。要快,要穩,要能串 API,要能處理真實世界的髒資料。這些條件少一個,產品就很難進日常工作流程。說白了,模型再強,不能即時用也沒用。
OpenAI 這次的方向,代表語音互動開始往主流軟體滲透。會議工具、客服系統、創作軟體、跨語言協作平台,都可能把這類模型當成底層能力。
接下來最值得看什麼
接下來要看的,不是發表文案,而是實測數字。延遲是多少。70+ 語言裡面,哪些語言真的穩。遇到口音、背景音、多人同時講話時,表現會掉多少。
如果 OpenAI 真的把即時語音做穩,開發者會很快把它塞進產品。反過來說,如果它只是在 Demo 很漂亮,市場很快就會用腳投票。語音工具最殘酷的地方,就是一用就知道差別。
我會建議開發者先想一件事:你的產品需要的是轉錄、翻譯,還是能即時回話的代理?答案不同,架構就完全不同。這次 OpenAI 給了三條路,接下來就看你要走哪一條。