OpenAI 将在 ChatGPT 推出语音和图像对话功能

2023-09-26 08:14:11Foresight分享至:

Foresight News 消息，OpenAI 计划在 ChatGPT 推出语音和图像对话功能，新功能将于未来两周内面向 Plus 和企业用户推出，其中语音对话功能将在 iOS 和 Android 设备上推出，图像对话功能将在所有平台上提供。
语音功能由新的文本转语音模型提供支持，能够仅从文本和几秒钟的示例语音中生成类似人类的音频，并使用开源语音识别系统 Whisper 将口语转录为文本，然后生成答案，再将答案转换为语音，播放给用户；图像功能由多模态 GPT-3.5 和 GPT-4 提供支持，将语言推理技能应用于各种图像，例如照片、屏幕截图以及包含文本和图像的文档，允许用户向 ChatGPT 显示一个或多个图像，ChatGPT 会尝试识别用户想要询问的内容，并给出相应的回答，比如探索冰箱中的内容以计划用餐，或分析与工作相关数据的复杂图表等等。