generación de texto
IberAuTexTification
- Lee más sobre IberAuTexTification
- Inicie sesión o registrese para enviar comentarios
Dataset generado para la tarea compartida centrada en la detección de texto generado por máquina y la atribución de modelos en los seis principales idiomas de la Península Ibérica: catalán, inglés, español, euskera, gallego y portugués. El conjunto de datos incluye textos humanos y generados en siete dominios: Chat, How-to, Noticias, Literario, Reseñas, Tweets y Wikipedia. Las generaciones se obtienen utilizando seis modelos de lenguaje: BLOOM-1B1, BLOOM-3B, BLOOM-7B1, Babbage, Curie y text-davinci-003.
RefutES
- Lee más sobre RefutES
- Inicie sesión o registrese para enviar comentarios
El corpus RefutES es un conjunto de datos diseñado para la tarea de refutar mensajes de discurso de odio mediante contra-narrativas. Está compuesto por un conjunto de pares de mensajes ofensivos y sus respectivas respuestas, generadas con el objetivo de ser razonadas, respetuosas, no ofensivas y contener información específica y veraz. El corpus se presenta en archivos CSV con las siguientes columnas:
AuTexTification 2023
- Lee más sobre AuTexTification 2023
- Inicie sesión o registrese para enviar comentarios
El conjunto de datos de AuTexTification consta de textos escritos por humanos y LLM en cinco dominios: tweets, reseñas, artículos instructivos, noticias y documentos legales.