您现在可以使用 ChatGPT 进行语音聊天。就是这样

闪电发卡2年前ChatGPT1182

OpenAI 表示“ChatGPT 现在可以看、听、说”。可能会出什么问题?


ChatGPT 现在可以看、听和说话
开放人工智能

当 OpenAI在 3 月份发布GPT-4时,其最大的优势之一是其多模式功能,这将允许ChatGPT接受图像输入。然而,直到现在,多式联运能力还没有准备好部署。 

周一,OpenAI 宣布ChatGPT 现在可以“看、听、说”,暗示这款流行的聊天机器人具有接收图像和语音输入以及在语音对话中进行回话的新能力。 

图像输入功能有助于获得有关您所看到的内容的帮助,例如解决工作表上的数学问题、识别植物名称或查看食品储藏室中的物品并提供食谱。 

在上述所有情况下,用户所要做的就是拍摄他们正在查看的内容的图片并添加他们想要答案的问题。OpenAI透露图像理解能力由GPT-3.5和GPT-4提供支持。 

语音输入和输出功能使 ChatGPT 具有与语音助手相同的功能。现在,要向 ChatGPT 请求任务,用户所要做的就是使用他们的声音,一旦处理完您的请求,它就会口头向您说出其响应。 

在 OpenAI 分享的演示中,用户口头要求 ChatGPT 讲一个关于刺猬的睡前故事。ChatGPT 通过讲述故事来做出回应,类似于亚马逊 Alexa 等语音助手的功能。 

人工智能支持的人工智能助手的竞赛已经开始,就在上周,亚马逊宣布将通过新的法学硕士为 Alexa 提供增强功能,这将赋予她类似于 ChatGPT 的功能,从本质上使她成为一个免提的人工智能助手。ChatGPT 将语音集成到其平台中实现了相同的最终结果。

为了支持语音功能,OpenAI 使用其语音识别系统 Whisper 将用户的口语转录为文本,并使用新的文本到语音模型,只需几秒钟的语音即可从文本生成类似人类的音频。 

为了创建 ChatGPT 的所有五种声音供用户选择,该公司与专业配音演员合作。

未来两周内,语音和图像功能将仅适用于ChatGPT Plus和 Enterprise。不过,OpenAI 表示,不久之后将扩大开发人员等其他用户对该功能的访问范围。 

如果您是Plus或Enterprise用户,要使用图像输入功能,您只需点击聊天界面中的照片按钮并上传图像即可。要访问语音功能,请前往“设置”<“新功能”并选择加入语音对话。 

Bing Chat受GPT-4支持,支持图像和语音输入,并且完全免费使用。因此,如果您想测试这些功能但尚未访问它们,Bing Chat 是一个不错的选择。


相关文章

从免费到付费:新手购买ChatGPT账号的7个实用建议

闪电发卡ChatGPT和Claude产品推荐: ChatGPT Pro共享账号 ChatGPT Pro独享账号 ChatGPT独享账号 Claude Pr...

摒弃ChatGPT的迷思:ChatGPT产品分析

摒弃ChatGPT的迷思:ChatGPT产品分析

ChatGPT的火爆背后,引发的是一场狂欢。这样一场狂欢,我们嗅到的是一股似曾相似的味道。这股味道,在区块链的身上,在元宇宙的身上都曾经出现过。深度分析对于ChatGPT追捧,我们更多地看到的是,人们...

2025年ChatGPT Pro会员账号最新价格:200美元值不值?

闪电发卡ChatGPT和Claude产品推荐:ChatGPT Pro共享账号ChatGPT Pro独享账号ChatGPT独享账号Claude Pro & ChatGPT Plus &...

GPT 4.0和4.5:购买前必看的升级差异详解

闪电发卡ChatGPT和Claude产品推荐: ChatGPT Pro共享账号 ChatGPT Pro独享账号 ChatGPT独享账号 Claude Pr...

探索人工智能安全和准备的前沿

探索人工智能安全和准备的前沿

人工智能安全格局OpenAI 的使命是确保通用人工智能 (AGI) 造福全人类。作为这一使命的一部分,他们坚定致力于解决全方位的人工智能安全风险。这一承诺不仅仅是理论上的。7 月,OpenAI 和其他...

购买ChatGPT Pro的优势:为什么值得投资官方版会员?

闪电发卡ChatGPT和Claude产品推荐:ChatGPT Pro共享账号ChatGPT Pro独享账号ChatGPT独享账号Claude Pro & ChatGPT Plus &...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。