研究人员记录了ChatGPT响应质量的令人担忧的下降趋势

闪电发卡3年前ChatGPT1646

例如,Chat GPT-4对素数进行识别的准确率从2023年3月到6月下降了从97.6%到2.4%。 

image.png

最近几个月来,关于ChatGPT响应质量下降的问题出现了大量的个人经验证据和普遍的议论。斯坦福大学和加州大学伯克利分校的研究团队决定确定是否确实发生了质量下降,并提出度量恶化程度的指标。长话短说,ChatGPT的质量下滑绝对不是想象出来的。

 

三位杰出的学者,Matei Zaharia、Lingjiao Chen和James Zou,是最近发表的研究论文《ChatGPT的行为如何随时间变化?》的作者。(PDF)今天早些时候,加州大学伯克利分校的计算机科学教授Zaharia在Twitter上分享了这些研究结果。他引人注目地指出,"GPT-4在'逐步思考这个数字是不是素数?'的成功率从2023年3月到6月下降了从97.6%到2.4%。"

 

 GPT-4开始普遍提供,并被OpenAI誉为其最先进、最有能力的模型。它很快被推向付费API开发者,声称可以为一系列新的创新型人工智能产品提供动力。因此,令人遗憾和令人惊讶的是,新的研究发现在面对一些相当直接的查询时,其质量回应非常不足。

 

我们已经给出了上述素数查询中GPT-4超低的错误率的例子。研究团队设计了任务来衡量ChatGPT潜在的大型语言模型(LLMs)即GPT-4和GPT-3.5的以下定性方面。任务分为四类,测量了多种人工智能技能,同时相对容易对性能进行评估。

 

解决数学问题

回答敏感问题

生成代码

视觉推理

 

下图提供了Open AI LLM的性能概述,研究人员量化了GPT-4和GPT-3.5在2023年3月和2023年6月发布的版本。

1692588627897.jpg

很明显,“相同”的LLM服务随时间变化而对查询的回答有很大不同。在这相对较短的时间内出现了显著差异。目前还不清楚这些LLMs如何进行更新,以及是否改变以改进性能的某些方面可能会对其他方面产生负面影响。在三个测试类别中,看看最新版本的GPT-4在比3月版本中的性能要差多少。它只在视觉推理中略微领先。


相关文章

开箱即用,新手必备的 8 个 GPT 超实用服务 & 插件

开箱即用,新手必备的 8 个 GPT 超实用服务 & 插件

今年 AI 领域相关应用的巨大爆发,让即使不怎么上网的普通人都知道了今年是「AI 元年」,其中以 ChatGPT 为代表的 GPT 模型是 AI 元年的两个主角之一,就算大家没用过,也基本听过它的名字...

ChatGPT 现已上线:下面看看它如何浏览和报告最新新闻

ChatGPT 现已上线:下面看看它如何浏览和报告最新新闻

随着流行的聊天机器人获取最新信息,我们向它询问有关不同新闻报道的问题,看看它的表现如何添加图片注释,不超过 140 字(可选)由 Bing-Chat 使用 GPT-4 生成的图像,受 DALL-E 3...

如何使用ChatGPT4编程提升研发效率:ChatGPT常见编程辅助场景案例举例

如何使用ChatGPT4编程提升研发效率:ChatGPT常见编程辅助场景案例举例

ChatGPT4 相比 ChatGPT3.5 在逻辑推理能力上有了很大的进步,他的代码生成能力更是让我非常震撼,因此我尝试在工作中某些不涉密的基础工作应用 ChatGPT4 来提升研发效率,简单尝试之...

OpenAI 5.0会员订阅指南:快速上手

闪电发卡ChatGPT和Claude产品推荐: ChatGPT Pro共享账号 ChatGPT Pro独享账号 ChatGPT独享账号 Claude Pr...

生成式人工智能的未来会怎样?多模态将把原始的 ChatGPT 演示转向人际协作、先进的机器人技术——甚至可能是持续学习的人工智能梦想

生成式人工智能的未来会怎样?多模态将把原始的 ChatGPT 演示转向人际协作、先进的机器人技术——甚至可能是持续学习的人工智能梦想

与人工智能的众多重大成就相比——在国际象棋中获胜、预测蛋白质折叠、给猫和狗贴上标签——被称为生成式人工智能的人工智能形式更吸引了全球的想象力。 ChatGPT在 1 月份成为历史上增长最快的软件程序,...

如何购买ChatGPT API密钥:详解3.5和4.0版本的购买流程

闪电发卡ChatGPT产品推荐:ChatGPT独享账号:https://www.chatgptzh.com/post/86.htmlChatGPT Plus独享共享账号购买代充:https://www...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。