BEVICTOR伟德官网主页

OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式,可提供更自然实时对话

发布时间:2026-03-17 00:55:15

OpenAI

宣告

即日起向部分 ChatGPT Plus 用户敞开 GPT-4o 的语音形式,并将于本年秋季逐步推广至一切 ChatGPT Plus 订阅用户。

本年 5 月,OpenAI 首席技能官米拉·穆拉蒂(Mira Murati)在讲演中说到:

在 GPT-4o 中,咱们训练了跨文本、视觉和音频的端到端全新一致模型,这意味着一切输入和输出都由同一个神经网络处理。

因为 GPT-4o 是咱们第一个结合一切这些形式的模型,因而咱们在探究该模型的功用及其局限性方面仍处于起步阶段。

OpenAI 原计划本年 6 月底约请一小部分 ChatGPT Plus 用户测验 GPT-4o 语音形式,但官方在 6 月宣告推延,表明需求更多时刻打磨该模型,进步该模型检测和回绝某些内容的才能。

依据此前曝光的信息,GPT-3.5 模型的均匀语音反应推迟为 2.8 秒,而 GPT-4 模型的推迟为 5.4 秒,因而在语音沟通方面不太优异,而行将推出的 GPT-4o 能够极大地缩短推迟时刻,近乎无缝对话。

GPT-4o 语音形式具有快速反应、声响堪比真人等特征,OpenAI 更称 GPT-4o 语音形式能够感知语音中的情感语调,包含哀痛、振奋或歌唱。

OpenAI 发言人林赛·麦卡勒姆(Lindsay McCallum)表明:“ChatGPT 不能冒充别人的声响,包含个人和大众人物的声响,并且会阻挠与预设声响不同的输出。”

← 返回