Referencias de evaluación para comparar modelos de lenguaje
Un leaderboard es una herramienta de evaluación que permite comparar el rendimiento de distintos modelos de lenguaje en una o varias tareas, utilizando métricas y conjuntos de datos comunes. Su objetivo es proporcionar una referencia objetiva y reproducible del estado del arte.

Recursos de evaluación y leaderboards
La Leaderboard
Ofrece una evaluación estandarizada sobre un conjunto de más de 60 tareas generativas y de comprensión, incluyendo preguntas y respuestas, resumen, razonamiento, traducción y conocimiento general. Además, integra múltiples lenguas del ámbito ibérico, lo que permite analizar el rendimiento multilingüe de los modelos en contextos más realistas.
En el caso de los datos en español, la mayoría de los conjuntos están originalmente en esta lengua, aunque también se incluyen algunos recursos traducidos manualmente a partir de datasets en otros idiomas y, en menor medida, datos generados mediante traducción automática.
ODESIA Leaderboard
Proporciona una evaluación comparativa de modelos en tareas clásicas de procesamiento del lenguaje natural, con especial énfasis en el español y su comparación con el inglés. Se basa en datasets cuidadosamente seleccionados y en algunos casos no públicos, lo que contribuye a evitar problemas de sobreajuste o contaminación de datos.
IberBench
Integra más de 10 datasets procedentes de campañas de evaluación y benchmarks recientes que cubren lenguas ibéricas e iberoamericanas. Permite evaluar modelos en múltiples variantes del español y en lenguas como catalán, gallego, euskera y portugués. Los datasets incorporados provienen de talleres relevantes como IberLEF@SEPLN y PAN@CLEF, así como de benchmarks consolidados de centros de investigación (HiTZ, BSC), y cada lengua está representada por su propio conjunto de datos.
Su orientación es aplicada y permite evaluar el comportamiento de los modelos en distintos dominios y escenarios.
TELEIA Benchmark
Orientado a evaluar la competencia lingüística de los modelos en español desde una perspectiva más cercana al uso real del idioma. Se basa en pruebas estructuradas que simulan evaluaciones lingüísticas, incluyendo aspectos como gramática, vocabulario y comprensión lectora. Permite analizar el dominio del español por parte de los modelos más allá de tareas específicas de NLP, siendo especialmente relevante en contextos educativos y en el análisis de calidad lingüística.
Chatbot Arena
Plataforma de evaluación basada en la interacción directa de usuarios con modelos conversacionales. Los modelos compiten en enfrentamientos por pares y son evaluados mediante votaciones humanas. Especialmente útil para medir la calidad conversacional, la coherencia y la utilidad de los modelos en escenarios reales de uso.
IberoBench
Benchmark multitarea basado en el framework LM Evaluation Harness. Permite evaluar modelos en 62 tareas, organizadas en 179 subtareas, combinando tanto datasets preexistentes como nuevos recursos específicamente creados para este benchmark. Cubre lenguas del ámbito ibérico: euskera, catalán, gallego, español europeo y portugués europeo.
En el caso de los datos en español, la mayoría son originalmente en esta lengua, aunque también se incluyen recursos traducidos manualmente desde otros idiomas cuando no existían datos disponibles, y en menor medida puede haber casos de datos provenientes de datasets previos donde no se puede descartar cierta contaminación.
GLUES
General Language Understanding Evaluation for Spanish es un benchmark diseñado específicamente para evaluar modelos de lenguaje en español, basado en la adaptación del conocido GLUE para inglés. Incluye siete tareas de comprensión del lenguaje natural, como inferencia textual, similitud semántica y clasificación, combinando tanto datasets originales en español como traducciones de tareas estándar.
Su objetivo es proporcionar una evaluación comparable y sistemática del rendimiento de los modelos en español, facilitando el análisis de capacidades lingüísticas en este idioma.
Xtreme-R Benchmark
Benchmark multilingüe diseñado para evaluar la capacidad de generalización de modelos de lenguaje en múltiples idiomas, incluyendo el español. Se centra especialmente en escenarios de transferencia y robustez, analizando cómo los modelos se comportan en tareas diversas cuando se entrenan o ajustan en distintos contextos lingüísticos. Incluye tareas como clasificación, inferencia textual, recuperación de información y otras pruebas representativas del procesamiento del lenguaje natural.

