一期针对ChatGPT的全面测评：涵盖功能、性能、用户体验

闪电发卡2年前 (2023-07-03)ChatGPT1120

从去年底至今，由 OpenAI 发布的大规模语言模型 ChatGPT 引发了几乎所有科技领域从业者的高度关注。根据瑞银集团的一份报告，截止 2023 年 1 月末，ChatGPT 仅推出 2 个月，月活用户就突破了 1 亿。

有人将 ChatGPT 称为“最强 AI”，原因在于 ChatGPT 给出的回答反应了它更接近人的思考方式和回答方式，相比过去增强了适应情景的能力。ChatGPT“更接近人的思考方式”也意味着 AI 语言模型的发展由量变走到了质变。

此外，ChatGPT 的大火带涨了 AI 概念股，让业内重新审视了 AI 行业巨大的发展机会。随后，搜索引擎的大战开始了，谷歌 CEO Sundar Pichai 在官方博客上宣布推出谷歌下一代 AI 对话系统 Bard，以此应对 ChatGPT；百度宣布将推出类似 ChatGPT 的产品——文心一言（英文名 ERNIE Bot）将在三月份完成内测，面向公众开放；微软公布了自家搜索引擎 Bing 最新版本，其采用的底层 AI 技术正是 ChatGPT，同时微软还为 Edge 浏览器添加了新的 AI 增强功能，承诺带来前所未有的网络浏览与在线信息查找体验。

为便于各方全面多维了解 ChatGPT 能力，InfoQ 测评室参考中国信息通信研究院联合中国人工智能产业发展联盟相关标准中的指标要求和评估方法，从功能、性能、用户体验等方面对 ChatGPT 进行了评估，我们一起看看这款应用是不是真如传说中那么强悍吧。

第一部分：基础功能验证

1. 自然语言输入

该部分主要测试了中文、俄语、日语、英语以及网络用语的识别情况，并从中考察 ChatGPT 的上下文联系能力。

结论：总体来说，ChatGPT 应对简单问题的上下文是连贯的，可以理解用户上文所提的问题和下文的补充问答，整体的交互过程是流畅的。但是，其对语言理解的鲁棒性可能没有想象中那么强。一旦掺杂网络用语、口语或者省略一些句子的关键成分，ChatGPT 的理解就可能出现问题。

2. 机器语言输入

鸡兔同笼是非常经典的一道基础编程题，逻辑相对简单。该部分主要希望通过一道基础编程题测试 ChatGPT 在不同编程语言之间切换是否顺畅，以及代码格式、逻辑、注释能力是否具备。

结论：高峰时间段测试容易出现识别错误，低峰测试时代码时准确可运行的。在这个过程中，只要 ChatGPT 对问题的理解没问题，基本就是可行的。对于不明确表达诉求的句子（例如：“我更喜欢 Java” 而不是“帮我切换至 Java 语言”）也可以很好理解。对于一个人工智能助手，ChatGPT 不主动给出判断，只给出建议。如果是复杂的业务开发，需要考虑合适的提问方式，最后给出的代码经过一些调整是可以应用的。

第二部分：基础性能测试

该部分并不是进行压力测试（实际测评过程中多次出现故障，可能是网络原因，也可能是访问流量过大，具体原因不得而知），而是通过一些需要进行大量检索和运算的问题来测试 ChatGPT 在百科检索、数学问答、文学交流、知识推理等方面的能力。

1. 百科检索

结论：针对常规检索就能得到答案的问题，ChatGPT 的回答还是比较全面的。当将 ChatGPT 作为一个实际的“人”来对话时，其给出的答案比强行拟人的效果要好很多。

2. 数学问答

结论：与部分网友之前给出的结论“ChatGPT 是理科生”相似。对于复杂的数学问题，ChatGPT 无法很好地理解题目并完成推理过程。当受到质疑时，ChatGPT 的认错速度极快，认错态度很好，并且分析了错误原因，但是并没有改正错误。

3. 文学交流

结论：相比于数学问答，ChatGPT 在文科上的表现更胜一筹。但是，用户需要认真甄别给出的答案，部分答案看似合理实则离谱，并且有时会给出一些看似“真实”的内容来源链接，但大部分打开后显示内容不存在。

4. 知识推理

结论：对于已经确定的事实和还不确定的理论猜测都有提及，回答相当充分且主次合理、条理清晰，这也是生成式 AI 很重要的特征。

第三部分：用户体验

结论：面对开放性问题，ChatGPT 给出的答案可以给大家带来更多参考价值，但无法作为标准答案直接采纳，趣味性略低。