Leaderboards | Portal ODESIA

Referencias de evaluación para comparar modelos de lenguaje

Un leaderboard es una herramienta de evaluación que permite comparar el rendimiento de distintos modelos de lenguaje en una o varias tareas, utilizando métricas y conjuntos de datos comunes. Su objetivo es proporcionar una referencia objetiva y reproducible del estado del arte.

Ver recursos ODESIA Leaderboard

Ilustración de leaderboard de modelos de lenguaje

Recursos de evaluación y leaderboards

La Leaderboard

Tipo de evaluación: Generativa Cobertura: lenguas ibéricas

Ofrece una evaluación estandarizada sobre un conjunto de más de 60 tareas generativas y de comprensión, incluyendo preguntas y respuestas, resumen, razonamiento, traducción y conocimiento general. Además, integra múltiples lenguas del ámbito ibérico, lo que permite analizar el rendimiento multilingüe de los modelos en contextos más realistas.

En el caso de los datos en español, la mayoría de los conjuntos están originalmente en esta lengua, aunque también se incluyen algunos recursos traducidos manualmente a partir de datasets en otros idiomas y, en menor medida, datos generados mediante traducción automática.

Ir al sitio

ODESIA Leaderboard

Tipo de evaluación: Discriminativa Cobertura: español e inglés

Proporciona una evaluación comparativa de modelos en tareas clásicas de procesamiento del lenguaje natural, con especial énfasis en el español y su comparación con el inglés. Se basa en datasets cuidadosamente seleccionados y en algunos casos no públicos, lo que contribuye a evitar problemas de sobreajuste o contaminación de datos.

Ir al sitio

IberBench

Tipo de evaluación: Mixta Cobertura: lenguas ibéricas

Integra más de 10 datasets procedentes de campañas de evaluación y benchmarks recientes que cubren lenguas ibéricas e iberoamericanas. Permite evaluar modelos en múltiples variantes del español y en lenguas como catalán, gallego, euskera y portugués. Los datasets incorporados provienen de talleres relevantes como IberLEF@SEPLN y PAN@CLEF, así como de benchmarks consolidados de centros de investigación (HiTZ, BSC), y cada lengua está representada por su propio conjunto de datos.

Su orientación es aplicada y permite evaluar el comportamiento de los modelos en distintos dominios y escenarios.

Ir al sitio

TELEIA Benchmark

Tipo de evaluación: Generativa Cobertura: español

Orientado a evaluar la competencia lingüística de los modelos en español desde una perspectiva más cercana al uso real del idioma. Se basa en pruebas estructuradas que simulan evaluaciones lingüísticas, incluyendo aspectos como gramática, vocabulario y comprensión lectora. Permite analizar el dominio del español por parte de los modelos más allá de tareas específicas de NLP, siendo especialmente relevante en contextos educativos y en el análisis de calidad lingüística.

Ir al sitio

Chatbot Arena

Tipo de evaluación: Humana comparativa Cobertura: multilingüe

Plataforma de evaluación basada en la interacción directa de usuarios con modelos conversacionales. Los modelos compiten en enfrentamientos por pares y son evaluados mediante votaciones humanas. Especialmente útil para medir la calidad conversacional, la coherencia y la utilidad de los modelos en escenarios reales de uso.

Ir al sitio

IberoBench

Tipo de evaluación: Mixta Cobertura: lenguas ibéricas

Benchmark multitarea basado en el framework LM Evaluation Harness. Permite evaluar modelos en 62 tareas, organizadas en 179 subtareas, combinando tanto datasets preexistentes como nuevos recursos específicamente creados para este benchmark. Cubre lenguas del ámbito ibérico: euskera, catalán, gallego, español europeo y portugués europeo.

En el caso de los datos en español, la mayoría son originalmente en esta lengua, aunque también se incluyen recursos traducidos manualmente desde otros idiomas cuando no existían datos disponibles, y en menor medida puede haber casos de datos provenientes de datasets previos donde no se puede descartar cierta contaminación.

Ir al sitio

GLUES

Tipo de evaluación: Comprensión NLU Cobertura: español

General Language Understanding Evaluation for Spanish es un benchmark diseñado específicamente para evaluar modelos de lenguaje en español, basado en la adaptación del conocido GLUE para inglés. Incluye siete tareas de comprensión del lenguaje natural, como inferencia textual, similitud semántica y clasificación, combinando tanto datasets originales en español como traducciones de tareas estándar.

Su objetivo es proporcionar una evaluación comparable y sistemática del rendimiento de los modelos en español, facilitando el análisis de capacidades lingüísticas en este idioma.

Ir al sitio

Xtreme-R Benchmark

Tipo de evaluación: Discriminativa Cobertura: multilingüe

Benchmark multilingüe diseñado para evaluar la capacidad de generalización de modelos de lenguaje en múltiples idiomas, incluyendo el español. Se centra especialmente en escenarios de transferencia y robustez, analizando cómo los modelos se comportan en tareas diversas cuando se entrenan o ajustan en distintos contextos lingüísticos. Incluye tareas como clasificación, inferencia textual, recuperación de información y otras pruebas representativas del procesamiento del lenguaje natural.

Ir al sitio