SuperCLUE是一个针对中文通用大模型的测评基准,旨在全面测试这些模型在不同任务下的效果,并比较它们与国际上的代表性模型和人类的表现。这个基准由三个榜单组成:总榜单、基础能力榜单和中文特性榜单,并由多个维度、70多个子能力组成。SuperCLUE选取了9个国内外有代表性的模型进行测试,并提供了一键测评和人类基准的指标对比。
中文通用大模型综合性评测基准正式发布!此基准旨在回答中文大模型的效果情况,以及相较于国际上的代表性模型做到了什么程度,模型与人类的效果对比如何等问题。 #SuperCLUE #中文大模型 #人工智能 #NLP URL https//github.com/CLUEbenchmark/SuperCLUE
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...