Leaderboards en temps réel
⚔️
LMSYS Chatbot Arena
Évaluations humaines en aveugle (Elo) sur des milliers de conversations réelles — lmarena.ai
Temps réel
📐
Artificial Analysis
Mesures indépendantes qualité × vitesse (tok/s) × coût — comparaison API concrète — artificialanalysis.ai
Hebdomadaire
🌊
LiveBench
Questions fraîches chaque mois pour éviter la contamination — maths, code, raisonnement, langue — livebench.ai
Mensuel
🛠️
Aider LLM Leaderboard
Édition de code en conditions réelles (vrais repos Git) — aider.chat/docs/leaderboards
À chaque modèle
Benchmarks techniques spécialisés
💻
SWE-bench Verified
Résolution de vrais bugs GitHub — référence agents de code — swebench.com
Code
🧮
AIME 2025 & MATH-500
Compétition mathématique US (lycée→IMO) et 500 problèmes formels — artofproblemsolving.com
Maths
🧠
GPQA Diamond
Questions niveau doctorat (biologie, physique, chimie) rédigées par des experts — arxiv.org/abs/2311.12022
Science
🧩
ARC-AGI 2024
Raisonnement général abstrait hors mémorisation — arcprize.org
Raisonnement
🖼️
MMMU & VideoMME
Compréhension multimodale (image, vidéo, audio) dans 30 disciplines — mmmu-benchmark.github.io
Vision
📄
RULER (contexte long)
Rappel sur fenêtres jusqu'à 1M tokens — needle-in-haystack généralisé — arxiv.org/abs/2404.06654
Long contexte
Benchmarks métiers
⚖️
LegalBench & BarExam
162 tâches juridiques (Stanford) + examen du barreau US — hazyresearch.stanford.edu/legalbench
Droit
💊
MedQA USMLE & MultiMedBench
Examen médical américain (USMLE) + évaluation multimodale santé (Google 2024) — pubmedqa.github.io
Médecine
📊
FinanceBench & TAT-QA
Q&A sur documents financiers réels + tableaux hybrides texte/chiffres — arxiv.org/abs/2311.11944
Finance
🎭
EQBench
Qualité rédactionnelle et créativité narrative, évaluée par des modèles juges — eqbench.com
Créativité