我对AI一无所知

我的后半生都以AI为伴了
lmarena.ai

lmarena.ai

匿名随机对战的大模型基准平台,你是凭判官,来给大模型打分
0490
Stanford CRFM

Stanford CRFM

Stanford CRFM斯坦福大学推出的评估体系
0220
MMBench

MMBench

MMBench全方位大模型评估
0320
CMMLU—中文多任务语言理解评估

CMMLU—中文多任务语言理解评估

CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
0430
OpenCompass司南

OpenCompass司南

评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名,同时提供多能力维度的评分参考,以便用户能够更全面地了解大模型的能力水平。
0240
AGI

AGI

AGI-Eval评测社区
0280
CLUE中文语言理解基准测评

CLUE中文语言理解基准测评

CLUE中文语言理解基准测评
0180
flageval

flageval

大模型评测平台
0190
C-EVAl

C-EVAl

中文基准模型评估套件 C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
0240
Hugging Face

Hugging Face

开源大模型排行。 We’re on a journey to advance and democratize artificial intelligence through open source and open science.
0320
The latest in Machine Learning

The latest in Machine Learning

大模型多任务语言理解基准 Papers With Code highlights trending Machine Learning research and the code to implement it.
0190
whisk

whisk

图片结合,效果非常棒
0420