MMLU,是一项评估大型语言模型语义理解能力的著名测试.
n LLM Leaderboard是HuggingFace社区推出的一个开源大模型排行榜,它基于EleutherAI的语言模型评估框架。
C-Eval的多层次、多学科设计使其成为评估中文语言模型性能的重要工具。
SuperCLUE是一个评估中文大型模型性能的综合性评测基准,它从三个维度衡量模型能力:基础能力、专业能力和中文特性能力。
OpenCompass,这是一个全面的开放评测系统,专为大型语言和多模态模型设计。
HELM(Holistic Evaluation of Language Models)是由斯坦福大学开发的全面评估语言模型的框架。
H20 EvalGPT是H20.ai推出的一款工具,旨在评估大型语言模型(LLM)的性能。
LangChain是一个框架,旨在简化语言模型驱动应用的开发。