HELM(Holistic Evaluation of Language Models)是由斯坦福大学开发的全面评估语言模型的框架。它通过场景、适配和指标三个核心模块进行评测,每次评估需指定场景、模型提示和至少一个评估指标。HELM专注于英语模型的评估,涵盖7个关键指标:准确性、不确定性/校准、鲁棒性、公平性、偏差、毒性和推断效率。其任务类型多样,包括问答、信息检索、摘要和文本分类等。
官网地址是:https://crfm.stanford.edu/helm/lite/latest/
HELM首页预览
数据评估
关于HELM特别声明
本站随意门导航提供的HELM都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由随意门导航实际控制,在2024年12月2日 上午11:24收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,随意门导航不承担任何责任。