我对AI一无所知

我的后半生都以AI为伴了

文章377 网址1096 书籍11 软件3 评论5

llmeval

LLM-EVAL 复旦大学实验室推出的大模型基准

0970

大模型评测

lmarena.ai

匿名随机对战的大模型基准平台，你是凭判官，来给大模型打分

02320

大模型评测

Stanford CRFM

Stanford CRFM斯坦福大学推出的评估体系

01020

大模型评测

MMBench

MMBench全方位大模型评估

01330

大模型评测

CMMLU—中文多任务语言理解评估

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

01460

大模型评测

OpenCompass司南

评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名，同时提供多能力维度的评分参考，以便用户能够更全面地了解大模型的能力水平。

01040

大模型评测

AGI

AGI-Eval评测社区

01340

大模型评测

CLUE中文语言理解基准测评

CLUE中文语言理解基准测评

0830

大模型评测

flageval

大模型评测平台

01070

大模型评测

C-EVAl

中文基准模型评估套件 C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

01070

大模型评测

Hugging Face

01230

大模型评测

The latest in Machine Learning

大模型多任务语言理解基准 Papers With Code highlights trending Machine Learning research and the code to implement it.

01190

大模型评测

AI账号获取

Optimized by WPJAM Basic。