reconocimiento de entidades nombradas

El corpus está compuesto por (i) la traducción y curación manual de los documentos con anotaciones de tmVar3 (Wei et al., 2022), que incluyen resúmenes de PubMed, a los cuales se añadieron las enfermedades y síntomas asociados; y (ii) la anotación manual de resúmenes en español de PubMed.

MultiCoNER-ES

Lee más sobre MultiCoNER-ES
Inicie sesión o registrese para enviar comentarios

MULTICONER es un conjunto de datos multilingües para el reconocimiento de entidades nombradas que abarca 3 dominios (frases de Wikipedia, preguntas y consultas de búsqueda) en 11 idiomas, entre los cuales el español, así como subconjuntos multilingües y de code mixing. El dataset recoge casos que representan retos como escenarios de bajo contexto (texto corto y sin encasillar), entidades sintácticamente complejas como títulos de películas y entidades con distribuciones de cola larga.

SocialDisNER

Lee más sobre SocialDisNER
Inicie sesión o registrese para enviar comentarios

El objetivo de SocialDisNER es el reconocimiento automático de menciones de enfermedades en tuits.

LivingNER

Lee más sobre LivingNER
Inicie sesión o registrese para enviar comentarios

DIANN-2018-ES

Lee más sobre DIANN-2018-ES
Inicie sesión o registrese para enviar comentarios

El corpus es una colección de 500 resúmenes de artículos biomédicos de Elsevier descargados durante 2017 y 2018. Está dividido en una partición de entrenamiento (80%) y una de evaluación (20%). Está anotado con discapacidades, negaciones y el alcance de las negaciones.