Esta competición aborda la falta de recursos en español para el reconocimiento de entidades nombradas (NER) y variantes genómicas, siendo la primera de su tipo. Se basa en un corpus curado por expertos que abarca mutaciones y entidades relacionadas con variantes (genes, enfermedades y síntomas). La propuesta busca mejorar el entrenamiento de modelos NER en un dominio con pocos recursos, superando las limitaciones de las herramientas actuales basadas en expresiones regulares. Dado que los datasets de NER para variantes son escasos incluso en inglés, este trabajo es clave para el avance en este campo. Inspirado en la medicina de precisión y la biocuración, impulsa la investigación en PLN en español.
Forum
Año
2024
Enlace a publicación