OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式，可提供更自然实时对话

发布时间：2026-03-17 00:55:15

OpenAI

宣告

即日起向部分 ChatGPT Plus 用户敞开 GPT-4o 的语音形式，并将于本年秋季逐步推广至一切 ChatGPT Plus 订阅用户。

本年 5 月，OpenAI 首席技能官米拉·穆拉蒂（Mira Murati）在讲演中说到：

在 GPT-4o 中，咱们训练了跨文本、视觉和音频的端到端全新一致模型，这意味着一切输入和输出都由同一个神经网络处理。

因为 GPT-4o 是咱们第一个结合一切这些形式的模型，因而咱们在探究该模型的功用及其局限性方面仍处于起步阶段。

OpenAI 原计划本年 6 月底约请一小部分 ChatGPT Plus 用户测验 GPT-4o 语音形式，但官方在 6 月宣告推延，表明需求更多时刻打磨该模型，进步该模型检测和回绝某些内容的才能。

依据此前曝光的信息，GPT-3.5 模型的均匀语音反应推迟为 2.8 秒，而 GPT-4 模型的推迟为 5.4 秒，因而在语音沟通方面不太优异，而行将推出的 GPT-4o 能够极大地缩短推迟时刻，近乎无缝对话。

GPT-4o 语音形式具有快速反应、声响堪比真人等特征，OpenAI 更称 GPT-4o 语音形式能够感知语音中的情感语调，包含哀痛、振奋或歌唱。

OpenAI 发言人林赛·麦卡勒姆（Lindsay McCallum）表明：“ChatGPT 不能冒充别人的声响，包含个人和大众人物的声响，并且会阻挠与预设声响不同的输出。”

← 返回

新闻详情