冷静对待LLM的评测结果

– 人们通过让大型语言模型(LLM)参加人类智力测试来证明它们的能力，但这些测试存在缺陷。LLM在某些测试中表现不错，但在其他测试中却失败，因此很难判断这些成绩到底反映了什么。

– 这些测试针对人类设计，基于很多假设。但对LLM却不一定成立。我们不能简单地把人类测试应用到LLM上，并据此下结论。

– LLM的表现十分不稳定。人类通常在一个测试中得高分，在相似测试中也能得高分。但LLM的表现则具有巨大随机性。

– LLM可能是通过纯记忆答案来“作弊”通过测试的。有证据显示它们在训练数据出现过的题目上表现优异，但在全新题目上就很差。

– 我们需要更严谨的LLM评估方法。可以借鉴测试动物智力的科学实验方法，进行控制实验、多角度验证。

– 应更关注LLM如何通过测试，而非仅仅通过与不通过。我们需要反向工程这些模型，了解它们运作的算法。

– LLM在语言领域的表现将迫使我们重新思考“智能”的本质和评判标准。

明柳梦少