MMLU,是一项评估大型语言模型语义理解能力的著名测试.
n LLM Leaderboard是HuggingFace社区推出的一个开源大模型排行榜,它基于EleutherAI的语言模型评估框架。
C-Eval的多层次、多学科设计使其成为评估中文语言模型性能的重要工具。
SuperCLUE是一个评估中文大型模型性能的综合性评测基准,它从三个维度衡量模型能力:基础能力、专业能力和中文特性能力。
OpenCompass,这是一个全面的开放评测系统,专为大型语言和多模态模型设计。
MMBench是由上海人工智能实验室联合多所大学共同推出的多模态基准测试。
HELM(Holistic Evaluation of Language Models)是由斯坦福大学开发的全面评估语言模型的框架。
H20 EvalGPT是H20.ai推出的一款工具,旨在评估大型语言模型(LLM)的性能。
PubMedQA是一个生物医学领域的问答数据集
大模型MaaS开放平台
阿里云自主研发的大语言模型
专注于大模型技术的研发和应用
字节跳动旗下云雀语言模型
商汤自研的超千亿参数语言大模型应用平台
新一代多模态大模型
网易伏羲推出的一系列人工智能平台和工具的总称
基于昇思MindSpore AI框架打造的一站式大模型体验平台
一个提供大模型应用解决方案的平台
由快手AI团队自研打造的视频生成大模型
快手推出的一款AI艺术创作平台
专注于人工智能服务研发的科技公司
中文法律大模型
让AI应用更简单
多模态大模型,融合文本,图像,视频,语音,3D等多模态信息
AI 聊天机器人
科大讯飞推出的新一代认知智能大模型
知识库大模型,智能客服,智能问答,AI写作