您现在可以使用 ChatGPT 进行语音聊天。就是这样

闪电发卡2年前ChatGPT1417

OpenAI 表示“ChatGPT 现在可以看、听、说”。可能会出什么问题?


ChatGPT 现在可以看、听和说话
开放人工智能

当 OpenAI在 3 月份发布GPT-4时,其最大的优势之一是其多模式功能,这将允许ChatGPT接受图像输入。然而,直到现在,多式联运能力还没有准备好部署。 

周一,OpenAI 宣布ChatGPT 现在可以“看、听、说”,暗示这款流行的聊天机器人具有接收图像和语音输入以及在语音对话中进行回话的新能力。 

图像输入功能有助于获得有关您所看到的内容的帮助,例如解决工作表上的数学问题、识别植物名称或查看食品储藏室中的物品并提供食谱。 

在上述所有情况下,用户所要做的就是拍摄他们正在查看的内容的图片并添加他们想要答案的问题。OpenAI透露图像理解能力由GPT-3.5和GPT-4提供支持。 

语音输入和输出功能使 ChatGPT 具有与语音助手相同的功能。现在,要向 ChatGPT 请求任务,用户所要做的就是使用他们的声音,一旦处理完您的请求,它就会口头向您说出其响应。 

在 OpenAI 分享的演示中,用户口头要求 ChatGPT 讲一个关于刺猬的睡前故事。ChatGPT 通过讲述故事来做出回应,类似于亚马逊 Alexa 等语音助手的功能。 

人工智能支持的人工智能助手的竞赛已经开始,就在上周,亚马逊宣布将通过新的法学硕士为 Alexa 提供增强功能,这将赋予她类似于 ChatGPT 的功能,从本质上使她成为一个免提的人工智能助手。ChatGPT 将语音集成到其平台中实现了相同的最终结果。

为了支持语音功能,OpenAI 使用其语音识别系统 Whisper 将用户的口语转录为文本,并使用新的文本到语音模型,只需几秒钟的语音即可从文本生成类似人类的音频。 

为了创建 ChatGPT 的所有五种声音供用户选择,该公司与专业配音演员合作。

未来两周内,语音和图像功能将仅适用于ChatGPT Plus和 Enterprise。不过,OpenAI 表示,不久之后将扩大开发人员等其他用户对该功能的访问范围。 

如果您是Plus或Enterprise用户,要使用图像输入功能,您只需点击聊天界面中的照片按钮并上传图像即可。要访问语音功能,请前往“设置”<“新功能”并选择加入语音对话。 

Bing Chat受GPT-4支持,支持图像和语音输入,并且完全免费使用。因此,如果您想测试这些功能但尚未访问它们,Bing Chat 是一个不错的选择。


相关文章

ChatGPT 3.5 vs 4.0:API Key购买指南及使用差异分析

闪电发卡快捷直达购买链接:ChatGPT 3.5 API(5美元,直连):https://www.shandianfk.com/buy/24ChatGPT 3.5 API(5美元,转发):https:...

GPT o1 Pro共享账号购买与安全性:如何避免风险

闪电发卡ChatGPT和Claude产品推荐:ChatGPT Pro共享账号ChatGPT Pro独享账号ChatGPT独享账号Claude Pro & ChatGPT Plus &...

购买GPT o1 Pro共享账号的步骤与技巧,省时省力

闪电发卡ChatGPT和Claude产品推荐:ChatGPT Pro共享账号ChatGPT Pro独享账号ChatGPT独享账号Claude Pro & ChatGPT Plus &...

ChatGPT Pro 4.5 成品号解析:为企业提供的智能解决方案

闪电发卡ChatGPT和Claude产品推荐:ChatGPT Pro共享账号ChatGPT Pro独享账号ChatGPT独享账号Claude Pro & ChatGPT Plus &...

Transformer重要论文与书籍 - Transformer教程

在当今的人工智能和机器学习领域,Transformer模型无疑是一个热门话题。自从Vaswani等人在2017年提出Transformer以来,这个模型迅速成为自然语言处理(NLP)领域的主流方法。T...

AutoGPT是什么?超简单安装使用教程

AutoGPT是什么?超简单安装使用教程

1.AutoGPT最近几天当红炸子鸡的是AutoGPT,不得不说AI发展真快啊,几天出来一个新东西,都跟不上时代的脚步了。AutoGPT是一个开源的应用程序,展示了GPT-4语言模型的能力。这个程序由...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。