我对AI一无所知

我的后半生都以AI为伴了
llmeval

llmeval

LLM-EVAL 复旦大学实验室推出的大模型基准
0970
lmarena.ai

lmarena.ai

匿名随机对战的大模型基准平台,你是凭判官,来给大模型打分
02320
Stanford CRFM

Stanford CRFM

Stanford CRFM斯坦福大学推出的评估体系
01020
MMBench

MMBench

MMBench全方位大模型评估
01330
CMMLU—中文多任务语言理解评估

CMMLU—中文多任务语言理解评估

CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
01460
OpenCompass司南

OpenCompass司南

评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名,同时提供多能力维度的评分参考,以便用户能够更全面地了解大模型的能力水平。
01040
AGI

AGI

AGI-Eval评测社区
01340
CLUE中文语言理解基准测评

CLUE中文语言理解基准测评

CLUE中文语言理解基准测评
0830
flageval

flageval

大模型评测平台
01070
C-EVAl

C-EVAl

中文基准模型评估套件 C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
01070
Hugging Face

Hugging Face

01230
The latest in Machine Learning

The latest in Machine Learning

大模型多任务语言理解基准 Papers With Code highlights trending Machine Learning research and the code to implement it.
01190