MMLU,是一项评估大型语言模型语义理解能力的著名测试.
n LLM Leaderboard是HuggingFace社区推出的一个开源大模型排行榜,它基于EleutherAI的语言模型评估框架。
C-Eval的多层次、多学科设计使其成为评估中文语言模型性能的重要工具。
SuperCLUE是一个评估中文大型模型性能的综合性评测基准,它从三个维度衡量模型能力:基础能力、专业能力和中文特性能力。
OpenCompass,这是一个全面的开放评测系统,专为大型语言和多模态模型设计。
MMBench是由上海人工智能实验室联合多所大学共同推出的多模态基准测试。
HELM(Holistic Evaluation of Language Models)是由斯坦福大学开发的全面评估语言模型的框架。
H20 EvalGPT是H20.ai推出的一款工具,旨在评估大型语言模型(LLM)的性能。
PubMedQA是一个生物医学领域的问答数据集
智源研究院的“悟道”人工智能模型,不仅创下了“中国首例+全球最大”的成就,还在科研领域达到了国际领先水平。
MiracleVision奇想智能,由美图秀秀公司自主研发的视觉大模型,以其卓越的美学和图像处理技术,广泛应用于多个行业,显著提升工作流程效率。
“大模型+Agent”技术