随着技术的不断进步和创新,以及数据规模的不断扩大,以文心一言 为代表的中国本土通用大模型的能力正在显著提升,综合能力的行业平均水平已经与ChatGPT3.5不相上下。
在“安全体系能力”方面,文心一言已经完全拉开了与GPT3.5的差距
对于明确的“任务”,能够做到准确的识别,执行的“任务”包括违法乱纪、恶意辱骂、隐私涉密、谣言造 假等性质的问题;
对于存在争议的内容的“任务”,能够客观持中的给出相关信息;
对逻辑复杂且存在诱导类的“任务”,能够基于社会主义价值观针对性的做出正确“指引”。
在基础服务能力、交互响应能力、理解创作能力方面,国产通用大模 型都能够表现出相当的水平,且不弱与GPT3.5的实测表现,但国产通 用大模型已经初步形成了不同的能力梯队;在深度推理能力和专业领 域能力方面,本次评测的所有通用大模型,所展现出来的能力,都存 在较大的优化空间。