Loading...

大模型评测

共 15 篇网址

AG1-Eval

AG1-Eval平台是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区，旨在打造公正、可信、科学、全面的评测生态以“评测助力，让AI成为人类更好的伙伴"为使命。专门设计用于评估基础模型在人类认知和问题解决相关任务中的一般能力。

01930

大模型评测 # AI模型专业评测平台

PubMedQA Homepage

PubMedQA Homepage 生物医学大模型评测

0950

大模型评测

H2O.ai

基于elo的大模型评测Our Al-powered search assistant helps you get answers to questions about your documents, websites and workplace content.

01170

大模型评测

llmeval

LLM-EVAL 复旦大学实验室推出的大模型基准

01050

大模型评测

lmarena.ai

匿名随机对战的大模型基准平台，你是凭判官，来给大模型打分

02500

大模型评测

Stanford CRFM

Stanford CRFM斯坦福大学推出的评估体系

01070

大模型评测

MMBench

MMBench全方位大模型评估

01450

大模型评测

CMMLU—中文多任务语言理解评估

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

01520

大模型评测

OpenCompass司南

评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名，同时提供多能力维度的评分参考，以便用户能够更全面地了解大模型的能力水平。

01080

大模型评测

AGI

AGI-Eval评测社区

01390

大模型评测

CLUE中文语言理解基准测评

CLUE中文语言理解基准测评

0920

大模型评测

flageval

大模型评测平台

01100

大模型评测

C-EVAl

中文基准模型评估套件 C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

01160

大模型评测

Hugging Face

01360

大模型评测

The latest in Machine Learning

大模型多任务语言理解基准 Papers With Code highlights trending Machine Learning research and the code to implement it.

01310

大模型评测

AI账号获取

Optimized by WPJAM Basic。