文心一言开放测试后,我们对文心一言、GPT-3.5 和 GPT-4 的问答表现分别进行了测评, 测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息 抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。
根据测试结果可以看出,三大模型在客观问题问答方面都有出色表现,但在数学计算、代 码生成、情感理解和推理方面均有待提升。对比来看,文心一言在图像创作、归纳总结等 问题中表现较为出色,但在逻辑推理领域还有待加强。在具体应用中,三大模型均能基本 胜任 AI 助手、售后客服、产品推荐等场景需求,但在文本修饰及古诗词理解领域仍有提 升空间。
我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量及模型训练水平 持续提升,各模型性能都有望进一步优化。