generación de texto

Dataset generado para la tarea compartida centrada en la detección de texto generado por máquina y la atribución de modelos en los seis principales idiomas de la Península Ibérica: catalán, inglés, español, euskera, gallego y portugués. El conjunto de datos incluye textos humanos y generados en siete dominios: Chat, How-to, Noticias, Literario, Reseñas, Tweets y Wikipedia. Las generaciones se obtienen utilizando seis modelos de lenguaje: BLOOM-1B1, BLOOM-3B, BLOOM-7B1, Babbage, Curie y text-davinci-003.

RefutES

Lee más sobre RefutES
Inicie sesión o registrese para enviar comentarios

El corpus RefutES es un conjunto de datos diseñado para la tarea de refutar mensajes de discurso de odio mediante contra-narrativas. Está compuesto por un conjunto de pares de mensajes ofensivos y sus respectivas respuestas, generadas con el objetivo de ser razonadas, respetuosas, no ofensivas y contener información específica y veraz. El corpus se presenta en archivos CSV con las siguientes columnas:

AuTexTification: Model Generated Text Attribution

NLP topic

generación de texto

Dataset

AuTexTification 2023

Idioma

Español

Año

2023

AuTexTification: Model Generated Text Detection

NLP topic

generación de texto

Dataset

AuTexTification 2023

Idioma

Español

Año

2023

AuTexTification 2023

Lee más sobre AuTexTification 2023
Inicie sesión o registrese para enviar comentarios

El conjunto de datos de AuTexTification consta de textos escritos por humanos y LLM en cinco dominios: tweets, reseñas, artículos instructivos, noticias y documentos legales.

Suscribirse a generación de texto