reconocimiento de entidades nombradas

GenoVarDis

El corpus está compuesto por (i) la traducción y curación manual de los documentos con anotaciones de tmVar3 (Wei et al., 2022), que incluyen resúmenes de PubMed, a los cuales se añadieron las enfermedades y síntomas asociados; y (ii) la anotación manual de resúmenes en español de PubMed.

MultiCoNER-ES

MULTICONER es un conjunto de datos multilingües para el reconocimiento de entidades nombradas que abarca 3 dominios (frases de Wikipedia, preguntas y consultas de búsqueda) en 11 idiomas, entre los cuales el español, así como subconjuntos multilingües y de code mixing. El dataset recoge casos que representan retos  como escenarios de bajo contexto (texto corto y sin encasillar), entidades sintácticamente complejas como títulos de películas y entidades con distribuciones de cola larga.

DIANN-2018-ES

El corpus es una colección de 500 resúmenes de artículos biomédicos de Elsevier descargados durante  2017 y 2018. Está dividido en una partición de entrenamiento (80%) y una de evaluación (20%). Está anotado con discapacidades, negaciones y el alcance de las negaciones.