EL ESTUDIO REVOLUCIONARIO
Investigadores de la Universidad Nacional Yang Ming Chiao Tung de Taiwán y Sony Group Corporation han desarrollado Newsagent, un sistema que evalúa si la inteligencia artificial puede realizar el trabajo completo de un periodista. A diferencia de estudios anteriores que solo medían capacidades de resumen o generación de texto, este benchmark simula el flujo de trabajo real de los periodistas profesionales.
Traducido y resumido por Claude a partir del original «AI Journalists: How Well Can Machines Write the News?, por Rahul Dogra en AI World Today
CÓMO FUNCIONA NEWSAGENT
El sistema replica fielmente el trabajo periodístico real. En lugar de proporcionar toda la información necesaria, Newsagent presenta un escenario realista: un título, fecha de publicación y datos limitados de primera mano (testimonios, transcripciones, pies de foto). La IA debe buscar activamente contexto histórico relevante, seleccionar información y construir una historia coherente.
El proceso incluye cinco pasos: comenzar con información básica limitada, buscar contexto histórico usando palabras clave, seleccionar qué incluir en el borrador, editar agregando o eliminando contenido, y reformular el borrador en un artículo final.
El benchmark utiliza 6,237 ejemplos verificados por humanos, derivados de artículos reales de BBC y AP News publicados entre junio y julio de 2025.
LOS MODELOS EVALUADOS
El estudio puso a prueba cinco sistemas de IA avanzados de finales de 2024 y principios de 2025: GPT-4o y GPT-4o mini (OpenAI), Gemma-3-27b-it (Google), Qwen3-32B (Alibaba), y Llama-4-Scout-17B-16E-Instruct (Meta).
Todos fueron evaluados usando el framework ReAct, que combina razonamiento con acciones como buscar y editar información, en formatos de 1 y 2 pasos.
UNOS RESULTADOS SORPRENDENTES: ¿ES MEJOR LA IA QUE UN HUMANO AL HACER PERIODISMO?
Los hallazgos más impactantes revelan que los artículos generados por IA no fueron consistentemente inferiores a los escritos por periodistas profesionales. En comparaciones directas, algunos sistemas de IA produjeron artículos que los evaluadores prefirieron sobre los creados por profesionales humanos.
Qwen3-32B emergió como el mejor performer general, superando incluso a GPT-4o de OpenAI. Este resultado es notable porque se trata de un modelo de código abierto compitiendo contra sistemas comerciales más costosos.
Los patrones fueron reveladores:
–artículos de humanos: destacaron en consistencia factual y objetividad
–artículos de IA: obtuvieron mejores puntuaciones en legibilidad y estilo periodístico
–sistemas de IA: incorporaron más contexto histórico y información de antecedentes
Los investigadores evaluaron seis dimensiones: consistencia factual, consistencia lógica, importancia, legibilidad, objetividad y estilo periodístico. GPT-4o destacó en legibilidad pero rezagó en estilo periodístico, mientras que Qwen3-32B mostró fortaleza en importancia y estilo periodístico.
EJEMPLO PRÁCTICO
Para ilustrar las diferencias, los investigadores compararon cómo un periodista de BBC y Qwen3-32B cubrieron el mismo partido de fútbol. El humano produjo un artículo conciso enfocado en hechos, mientras que Qwen3-32B creó una narrativa más rica que incorporó detalles históricos adicionales sobre equipos y jugadores.
LIMITACIONES CRÍTICAS DE LA INTELIGENCIA ARTIFICIAL
A pesar de resultados impresionantes, el estudio identificó limitaciones cruciales:
- Falta de autocorrección. La limitación más notable fue que los sistemas de IA prácticamente no mostraron autocorrección durante la edición. La función «Eliminar» nunca fue utilizada, contrastando dramáticamente con periodistas humanos que rutinariamente refinan sus narrativas.
- Selección de información divergente. Otro hallazgo significativo fue la divergencia entre información seleccionada por IA versus periodistas humanos. Los sistemas de IA mostraron puntuaciones F1 bajas, indicando que priorizaron información diferente.
- Patrones de búsqueda. El modo de ejecución de 2 pasos incrementó la precisión pero redujo el recall, sugiriendo que descomponer el proceso enfoca la atención en elementos altamente relevantes mientras potencialmente pierde contexto útil.
UNA METODOLOGÍA INNOVADORA
Newsagent representa un avance metodológico significativo. En lugar de métricas simples como puntuaciones ROUGE, los investigadores implementaron evaluación comparativa dimensional usando GPT-4.
Para cada comparación, GPT-4 evaluó dos artículos a través de las seis dimensiones, proporcionando preferencia y justificación antes de sintetizar en una evaluación general. Este enfoque logró 72% de acuerdo con preferencias humanas, sustancialmente más alto que el 53% de evaluaciones estándar.
IMPLICACIONES PARA EL FUTURO DEL PERIODISMO
Los hallazgos ofrecen perspectivas valiosas para organizaciones de noticias considerando integrar estas tecnologías.
Complemento, no reemplazo. El estudio sugiere que la IA podría complementar al periodismo humano. Los sistemas destacaron en integrar contexto histórico y crear flujo narrativo, tareas que consumen tiempo pero agregan valor significativo.
Aplicaciones prácticas. Para redacciones con limitaciones de recursos, asistentes de IA podrían manejar ciertos tipos de historias, liberando a periodistas humanos para trabajo investigativo, entrevistas y análisis complejo.
Direcciones futuras. Los investigadores sugieren extender Newsagent para incluir capacidades multi-modales nativas (procesamiento directo de imágenes, videos y audio) y explorar marcos que permitan colaboración entre agentes especializados.
ALGUNAS CONSIDERACIONES ÉTICAS CUANDO LAS IAs HACEN DE PERIODISTAS
El benchmark plantea preguntas éticas importantes. Los datos de noticias pueden contener temas sensibles y sesgos. Las salidas generadas podrían tergiversar hechos o producir narrativas engañosas.
La automatización de escritura de noticias a escala plantea riesgos de desinformación o narrativas impulsadas por agendas. Los investigadores recomiendan incluir detección de sesgos, transparencia de fuentes y salvaguardas contra prompts adversariales.
CONCLUSIÓN
Newsagent representa un paso significativo en entender cómo los sistemas de IA pueden realizar tareas periodísticas. Los resultados sugieren tanto promesa como limitaciones importantes. Los sistemas actuales pueden producir artículos que a veces superan a los humanos en legibilidad y riqueza narrativa, pero carecen de capacidades críticas en autocorrección y juicio editorial.
La relación entre tecnología y periodismo evolucionará de maneras complejas, con formas híbridas donde la IA maneja ciertos aspectos mientras los humanos se enfocan en otros, preservando el compromiso del periodismo con la verdad y su papel esencial en sociedades democráticas.
AUTOR
Rahul Dogra. Es Director de Tecnología en el Daily Excelsior. También es periodista en Entrepreneur Loop y en AI World Today
IMAGEN: composición en Canva