generación de texto

IberAuTexTification

Dataset generado para la tarea compartida centrada en la detección de texto generado por máquina y la atribución de modelos en los seis principales idiomas de la Península Ibérica: catalán, inglés, español, euskera, gallego y portugués. El conjunto de datos incluye textos humanos y generados en siete dominios: Chat, How-to, Noticias, Literario, Reseñas, Tweets y Wikipedia. Las generaciones se obtienen utilizando seis modelos de lenguaje: BLOOM-1B1, BLOOM-3B, BLOOM-7B1, Babbage, Curie y text-davinci-003.

RefutES

El corpus RefutES es un conjunto de datos diseñado para la tarea de refutar mensajes de discurso de odio mediante contra-narrativas. Está compuesto por un conjunto de pares de mensajes ofensivos y sus respectivas respuestas, generadas con el objetivo de ser razonadas, respetuosas, no ofensivas y contener información específica y veraz. El corpus se presenta en archivos CSV con las siguientes columnas: