MMLU,是一项评估大型语言模型语义理解能力的著名测试.
n LLM Leaderboard是HuggingFace社区推出的一个开源大模型排行榜,它基于EleutherAI的语言模型评估框架。
C-Eval的多层次、多学科设计使其成为评估中文语言模型性能的重要工具。
SuperCLUE是一个评估中文大型模型性能的综合性评测基准,它从三个维度衡量模型能力:基础能力、专业能力和中文特性能力。