Una marca de agua podría detectar los textos escritos por herramientas de Inteligencia Artificial como ChatGTP

«A Watermark for Chatbots Can Expose Text Written by an AI». MIT Technology Review. Accedido 29 de enero de 2023.

Ver completo

 

Los textos generados por inteligencia artificial podrían identificarse como tales mediante marcas ocultas, que nos permitirían saber si las palabras que leemos han sido escritas por un ser humano o no.

 

Estas «marcas de agua» son invisibles al ojo humano, pero permiten a los ordenadores detectar que el texto procede probablemente de un sistema de IA como ChatGTP. Si se incorporan a grandes modelos lingüísticos, podrían ayudar a evitar algunos de los problemas que estos modelos ya están causado.

Por ejemplo, desde que se lanzó en noviembre el chatbot ChatGPT de OpenAI, los estudiantes ya han empezado a hacer trampas utilizándolo para que escriba trabajos declase por ellos. El sitio web de noticias CNET ha utilizado ChatGPT para escribir artículos, pero ha tenido que corregirlos ante las acusaciones de plagio. Incorporar la marca de agua a estos sistemas antes de su lanzamiento podría ayudar a resolver estos problemas.

En algunos estudios, estas marcas de agua ya se han utilizado para identificar con casi total certeza textos generados por IA. Los investigadores de la Universidad de Maryland, por ejemplo, fueron capaces de detectar el texto creado por el modelo lingüístico de código abierto de Meta, OPT-6.7B, mediante un algoritmo de detección creado por ellos. El trabajo se describe en un artículo que aún no ha sido revisado por pares, este código estará disponible gratuitamente en torno al 15 de febrero.

«Ahora mismo estamos en el Salvaje Oeste», afirma John Kirchenbauer, investigador de la Universidad de Maryland que participó en el desarrollo de las marcas de agua. Kirchenbauer confía en que las herramientas de marca de agua den ventaja a los esfuerzos de detección de la IA. La herramienta que ha desarrollado su equipo podría adaptarse a cualquier modelo lingüístico de inteligencia artificial que prediga la siguiente palabra.

Los modelos lingüísticos de IA funcionan prediciendo y generando una palabra cada vez. Después de cada palabra, el algoritmo de marca de agua divide aleatoriamente el vocabulario del modelo lingüístico en palabras de una «lista verde» y una «lista roja» y, a continuación, pide al modelo que elija palabras de la lista verde.

Cuantas más palabras de la lista verde haya en un pasaje, más probable es que el texto haya sido generado por una máquina. El texto escrito por una persona suele contener una mezcla más aleatoria de palabras. Por ejemplo, para la palabra «bello», el algoritmo podría clasificar la palabra «flor» como verde y «orquídea» como roja. El modelo de IA con el algoritmo de marca de agua tendría más probabilidades de utilizar la palabra «flor» que «orquídea», explica Tom Goldstein, profesor adjunto de la Universidad de Maryland, que participó en la investigación.

ChatGPT forma parte de una nueva generación de grandes modelos lingüísticos que generan textos tan fluidos que podrían confundirse con la escritura humana. Estos modelos de IA Estos modelos de IA recopilan hechos por confianza, pero son famosos por arrojar falsedades y sesgos. Para un ojo inexperto, puede ser casi imposible distinguir un pasaje escrito por un modelo de IA de otro escrito por un ser humano. La vertiginosa velocidad de desarrollo de la inteligencia artificial hace que los nuevos modelos, más potentes, reduzcan rápidamente la eficacia de las actuales herramientas de detección de textos falsos. Es una carrera constante entre los desarrolladores de IA para crear nuevas herramientas de seguridad que puedan estar a la altura de la última generación de modelos de IA.

Esta entrada se publicó en Investigación y está etiquetada con ChatbotFraudeInteligencia artificialPlagio en enero 29, 2023.

FUENTE: JULIO ALONSO ARÉVALO

 

Follow us on Social Media