匿名随机对战的大模型基准平台,你是凭判官,来给大模型打分
数据统计
数据评估
关于lmarena.ai特别声明
本站六耳AI工具中文导航站提供的lmarena.ai都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由六耳AI工具中文导航站实际控制,在2024年 12月 26日 下午5:37收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,六耳AI工具中文导航站不承担任何责任。
相关导航
CMMLU—中文多任务语言理解评估
CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

AG1-Eval
AG1-Eval平台是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态以“评测助力,让AI成为人类更好的伙伴"为使命。专门设计用于评估基础模型在人类认知和问题解决相关任务中的一般能力。
Stanford CRFM
Stanford CRFM斯坦福大学推出的评估体系
The latest in Machine Learning
大模型多任务语言理解基准
Papers With Code highlights trending Machine Learning research and the code to implement it.
MMBench
MMBench全方位大模型评估
PubMedQA Homepage
PubMedQA Homepage
生物医学大模型评测
H2O.ai
基于elo的大模型评测Our Al-powered search assistant helps you get answers to questions about your documents, websites and workplace content.
暂无评论...

