冷静对待LLM的评测结果

原文

– 人们通过让大型语言模型(LLM)参加人类智力测试来证明它们的能力,但这些测试存在缺陷。LLM在某些测试中表现不错,但在其他测试中却失败,因此很难判断这些成绩到底反映了什么。


– 这些测试针对人类设计,基于很多假设。但对LLM却不一定成立。我们不能简单地把人类测试应用到LLM上,并据此下结论。


– LLM的表现十分不稳定。人类通常在一个测试中得高分,在相似测试中也能得高分。但LLM的表现则具有巨大随机性。


– LLM可能是通过纯记忆答案来“作弊”通过测试的。有证据显示它们在训练数据出现过的题目上表现优异,但在全新题目上就很差。


– 我们需要更严谨的LLM评估方法。可以借鉴测试动物智力的科学实验方法,进行控制实验、多角度验证。


– 应更关注LLM如何通过测试,而非仅仅通过与不通过。我们需要反向工程这些模型,了解它们运作的算法。


– LLM在语言领域的表现将迫使我们重新思考“智能”的本质和评判标准。


关于明柳梦少

坚守自己的原则,不随波逐流。