Artificial intelligence content detection - Enciclopedia

El software de detección de inteligencia artificial (IA) tiene como objetivo determinar si algún contenido (texto, imagen, video o audio) fue generado utilizando inteligencia artificial (IA). Sin embargo, este software a menudo es inconfiable.

Problemas de precisión
Muchos herramientas de detección de IA han demostrado ser inconfiables en la detección de texto generado por IA. En un estudio de 2023 realizado por Weber-Wulff et al., los investigadores evaluaron 14 herramientas de detección, incluyendo Turnitin y GPTZero, y encontraron que "todas obtuvieron una precisión inferior al 80% y solo 5 superaron el 70%". También descubrieron que estas herramientas tienden a clasificar los textos más como humanos que como generados por IA, y que la precisión de estas herramientas empeora con la paráfrasis.

= Falsos positivos =
En la detección de contenido de IA, un falso positivo es cuando el trabajo escrito por humanos se marca incorrectamente como escrito por IA. Muchas plataformas de detección de IA afirman tener un nivel mínimo de falsos positivos, con Turnitin alegando una tasa de falsos positivos menor al 1%. Sin embargo, una investigación posterior del Washington Post produjo tasas mucho más altas del 50%, aunque utilizaron un tamaño de muestra más pequeño. Los falsos positivos en un entorno académico con frecuencia conducen a acusaciones de malas prácticas académicas, lo que puede tener consecuencias graves para el expediente académico de un estudiante. Además, estudios han mostrado evidencia de que muchos modelos de detección de IA son propensos a emitir falsos positivos en trabajos escritos por personas cuyo primer idioma no es el inglés y por personas neurodiversas.
En junio de 2023, Janelle Shane escribió que partes de su libro You Look Like a Thing and I Love You fueron marcadas como generadas por IA.

= Falsos negativos =
Un falso negativo es la falta de identificación de documentos con texto escrito por IA. Los falsos negativos a menudo ocurren como resultado del nivel de sensibilidad del software de detección o porque se utilizaron técnicas evasivas al generar el trabajo para que sonara más humano. Los falsos negativos son menos preocupantes en el ámbito académico, ya que no son muy propensos a llevar a acusaciones y consecuencias. Notablemente, Turnitin afirmó que tienen una tasa de falsos negativos del 15%.

Detección de texto
Para el texto, esto se hace generalmente para evitar el plagio alegado, a menudo mediante la detección de repeticiones de palabras como signos de que un texto fue generado por IA (incluidas las ilusiones). A menudo se utilizan por profesores al evaluar a sus estudiantes, generalmente de manera ad hoc. Después del lanzamiento de ChatGPT y otros softwares generativos de texto de IA, muchos establecimientos educativos han emitido políticas en contra del uso de IA por parte de los estudiantes. El software de detección de texto de IA también se utiliza por aquellos que evalúan a los solicitantes de empleo, así como por motores de búsqueda en línea.
Los detectores actuales pueden ser a veces inconfiables y han marcado incorrectamente trabajos humanos como provenientes de IA mientras fallan en detectar trabajos generados por IA en otras ocasiones. La MIT Technology Review dijo que la tecnología "tuvo dificultades para identificar texto generado por ChatGPT que fue ligeramente reordenado por humanos y enmascarado por una herramienta de paráfrasis". El software de detección de texto de IA también ha demostrado discriminación contra hablantes no nativos del inglés.
Dos estudiantes de la Universidad de California, Davis, fueron referidos a la Oficina de Éxito Estudiantil y Asuntos Judiciales (OSSJA) de la universidad después de que sus profesores escanearon sus ensayos con resultados positivos; el primero con un detector de IA llamado GPTZero, y el segundo con una integración de detector de IA en Turnitin. Sin embargo, después de la cobertura mediática y una investigación exhaustiva, los estudiantes fueron exonerados de cualquier maltrato.
En abril de 2023, la Universidad de Cambridge y otros miembros del Grupo Russell de universidades en el Reino Unido optaron por no usar el herramienta de detección de texto de IA de Turnitin, después de expresar sus preocupaciones sobre su inexactitud. La Universidad de Texas en Austin optó por no usar el sistema seis meses más tarde.
En mayo de 2023, un profesor de la Universidad de Texas A&M-Commerce utilizó ChatGPT para detectar si el contenido de sus estudiantes fue escrito por él, lo que ChatGPT dijo que era el caso. Como tal, amenazó con suspender la clase a pesar de que ChatGPT no pudo detectar escritos generados por IA. Ningún estudiante fue impedido de graduarse debido al problema, y todos los estudiantes excepto uno (quien admitió usar el software) fueron exonerados de acusaciones de haber utilizado ChatGPT en su contenido.
En julio de 2023, se publicó un artículo titulado "GPT detectors are biased against non-native English writers", que informaba de que los GPT discriminan contra autores no nativos del inglés. El artículo comparó siete detectores de GPT contra ensayos de hablantes no nativos del inglés y ensayos de estudiantes estadounidenses. Los ensayos de hablantes no nativos del inglés tuvieron una tasa promedio de falsos positivos del 61.3%.
Un artículo de Thomas Germain, publicado en Gizmodo en junio de 2024, informó sobre pérdidas de empleo entre escritores y periodistas independientes debido a que el software de detección de texto de IA los clasificó incorrectamente como generados por IA.
En septiembre de 2024, Common Sense Media informó que los detectores de IA generativos tenían una tasa de falsos positivos del 20% para estudiantes afroamericanos, en comparación con el 10% para estudiantes latinos y el 7% para estudiantes blancos.
Para mejorar la fiabilidad de la detección de texto de IA, los investigadores han explorado técnicas de marca de agua digital. Un artículo de 2023 titulado "A Watermark for Large Language Models" presenta un método para insertar marcas de agua imperceptibles en el texto generado por grandes modelos de lenguaje (LLM). Este enfoque de marca de agua permite identificar el contenido como generado por IA con un alto nivel de precisión, incluso cuando el texto es ligeramente parafrasado o modificado. La técnica está diseñada para ser sutil y difícil de detectar para lectores casuales, preservando la legibilidad, mientras proporciona una señal detectable para aquellos que utilizan herramientas especializadas. Sin embargo, aunque prometedor, la marca de agua enfrenta desafíos para mantenerse robusta bajo transformaciones adversarias y asegurar la compatibilidad en diferentes LLM.

Anti-detección de texto
Existe software diseñado para evitar la detección de texto por IA.
Un estudio publicado en agosto de 2023 analizó 20 resúmenes de artículos publicados en el Eye Journal, que luego fueron parafrasados utilizando GPT-4.0. Los resúmenes parafrasados se examinaron por plagio utilizando QueText y por contenido generado por IA utilizando Originality.AI. Los textos luego se procesaron nuevamente a través de un software adversario llamado Undetectable.ai para reducir las puntuaciones de detección de IA. El estudio encontró que la herramienta de detección de IA, Originality.AI, identificó texto generado por GPT-4 con una precisión media del 91.3%. Sin embargo, después del procesamiento por Undetectable.ai, la precisión de detección de Originality.ai cayó a una precisión media del 27.8%.
Algunos expertos también creen que técnicas como la marca de agua digital son ineficaces porque pueden ser eliminadas o adicionadas para desencadenar falsos positivos. El artículo "A Watermark for Large Language Models" de Kirchenbauer et al. también aborda las vulnerabilidades potenciales de las técnicas de marca de agua. Los autores describen una gama de tácticas adversarias, incluyendo ataques de inserción, eliminación y sustitución de texto, que podrían ser utilizadas para evitar la detección de marcas de agua. Estas tácticas varían en complejidad, desde la paráfrasis simple hasta enfoques más sofisticados que involucran tokenización y alteraciones de homografías. El estudio destaca el desafío de mantener la robustez de la marca de agua contra atacantes que pueden utilizar herramientas de paráfrasis automatizadas o incluso reemplazos específicos de modelos de lenguaje para alterar fragmentos de texto iterativamente mientras mantienen la similitud semántica. Los resultados experimentales muestran que aunque tales ataques pueden debilitar la marca de agua, también conllevan un costo en la calidad del texto y en los recursos computacionales.

Detección de texto multilingüe
Una debilidad de la mayoría de los softwares de detección de contenido de IA es su incapacidad para identificar texto generado por IA en cualquier idioma. Los grandes modelos de lenguaje (LLM) como ChatGPT, Claude y Gemini pueden escribir en diferentes idiomas, pero las herramientas tradicionales de detección de texto de IA se han entrenado principalmente en inglés y en unos pocos idiomas ampliamente hablados, como el francés y el español. Soluciones de detección de IA menos comunes pueden detectar texto generado por IA en idiomas como farsi, árabe o hindi.

Detección de imagen, video y audio
Existen varios softwares propuestos de detección de imágenes de IA, para detectar imágenes generadas por IA (por ejemplo, aquellas originadas de Midjourney o DALL-E). No son completamente fiables.
Otras afirman identificar deepfakes de video y audio, pero esta tecnología también no es completamente fiable aún.
A pesar del debate sobre la eficacia de la marca de agua, Google DeepMind está desarrollando activamente un software de detección llamado SynthID, que funciona insertando una marca de agua digital invisible al ojo humano en los píxeles de una imagen.

Ver también
Copyleaks
Alineación de IA
Inteligencia artificial y elecciones
Comparación de software anti-plagio
Detección de similitud de contenido
Ilusión (inteligencia artificial)
Procesamiento de lenguaje natural

Referencias