Ejército de pequeños robots
Image by vecstock on Freepik

¿Qué es el «colapso de modelos»? Un experto explica los rumores sobre un inminente apocalipsis de la IA

Necesitamos urgentemente investigaciones interdisciplinarias sobre los desafíos sociales y culturales que plantean los sistemas de IA.
Inicio

Por Aaron J. Snoswell

Profetas de la inteligencia artificial (IA) y algunos medios de comunicación están pronosticando el fin del entusiasmo por la IA generativa, hablando de un inminente y catastrófico «colapso de modelos».

Pero, ¿qué tan realistas son estas predicciones? ¿Y qué es el colapso de modelos?

Discutido en 2023, pero popularizado más recientemente, el «colapso de modelos» se refiere a un escenario hipotético en el que los futuros sistemas de IA se vuelven progresivamente menos eficientes debido al aumento de datos generados por IA en internet.

La necesidad de datos

Los sistemas modernos de IA se construyen utilizando aprendizaje automático. Los programadores configuran la estructura matemática subyacente, pero la «inteligencia» real proviene de entrenar el sistema para imitar patrones en los datos.

Sin embargo, no se trata de cualquier tipo de datos. Los sistemas de IA generativa actuales necesitan datos de alta calidad y en grandes cantidades.

Para obtener estos datos, grandes empresas tecnológicas como OpenAI, Google, Meta y Nvidia recorren continuamente internet, recopilando terabytes de contenido para alimentar sus máquinas. Pero desde la llegada de sistemas de IA generativa ampliamente disponibles y útiles en 2022, cada vez más personas están subiendo y compartiendo contenido creado, en parte o en su totalidad, por IA.

En 2023, los investigadores comenzaron a preguntarse si sería posible depender exclusivamente de datos creados por IA para el entrenamiento, en lugar de datos generados por humanos.

Hay enormes incentivos para que esto funcione. Además de proliferar en internet, el contenido creado por IA es mucho más barato de obtener que los datos humanos. Tampoco es éticamente ni legalmente cuestionable recopilarlo en masa.

Sin embargo, los investigadores descubrieron que sin datos humanos de alta calidad, los sistemas de IA entrenados con datos creados por IA se vuelven menos eficientes a medida que cada modelo aprende del anterior. Es como una versión digital del problema de la endogamia.

Este «entrenamiento regurgitativo» parece llevar a una reducción en la calidad y diversidad del comportamiento del modelo. Calidad aquí se refiere aproximadamente a una combinación de ser útil, inofensivo y honesto. Diversidad se refiere a la variación en las respuestas y a qué perspectivas culturales y sociales de las personas están representadas en las salidas de la IA.

En resumen: al usar tanto los sistemas de IA, podríamos estar contaminando la misma fuente de datos que necesitamos para hacerlos útiles en primer lugar.

Evitando el colapso

¿No pueden las grandes empresas tecnológicas simplemente filtrar el contenido generado por IA? No del todo. Las empresas tecnológicas ya gastan mucho tiempo y dinero limpiando y filtrando los datos que recopilan, con un informante de la industria compartiendo recientemente que a veces descartan hasta el 90% de los datos que inicialmente recopilan para entrenar modelos.

Estos esfuerzos podrían volverse más exigentes a medida que aumente la necesidad de eliminar específicamente el contenido generado por IA. Pero, más importante aún, a largo plazo será cada vez más difícil distinguir el contenido de IA. Esto hará que la filtración y eliminación de datos sintéticos sea un juego de rendimientos decrecientes (financieros).

En última instancia, la investigación hasta ahora muestra que simplemente no podemos prescindir por completo de los datos humanos. Después de todo, de ahí proviene la «I» en IA.

¿Nos dirigimos hacia una catástrofe?

Hay indicios de que los desarrolladores ya están teniendo que trabajar más para obtener datos de alta calidad. Por ejemplo, la documentación que acompañó el lanzamiento de GPT-4 acreditó a un número sin precedentes de personal involucrado en las partes relacionadas con los datos del proyecto.

También podríamos estar quedándonos sin nuevos datos humanos. Algunas estimaciones sugieren que la reserva de datos textuales generados por humanos podría agotarse tan pronto como en 2026.

Es probablemente por eso que OpenAI y otros están corriendo para asegurar asociaciones exclusivas con gigantes de la industria como Shutterstock, Associated Press y NewsCorp. Ellos poseen grandes colecciones de datos humanos propietarios que no están disponibles públicamente en internet.

Sin embargo, las perspectivas de un colapso catastrófico de modelos podrían estar exageradas. La mayoría de la investigación hasta ahora analiza casos en los que los datos sintéticos reemplazan a los datos humanos. En la práctica, es probable que los datos humanos y de IA se acumulen en paralelo, lo que reduce la probabilidad de un colapso.

El escenario futuro más probable también verá un ecosistema de plataformas de IA generativa algo diversas que se utilizan para crear y publicar contenido, en lugar de un modelo monolítico. Esto también aumenta la robustez contra el colapso.

Es una buena razón para que los reguladores promuevan una competencia saludable limitando los monopolios en el sector de la IA, y para que financien el desarrollo de tecnología de interés público.

Las preocupaciones reales

También existen riesgos más sutiles debido a un exceso de contenido generado por IA.

Una avalancha de contenido sintético podría no representar una amenaza existencial para el progreso del desarrollo de la IA, pero sí amenaza el bien público digital de internet (humana).

Por ejemplo, los investigadores encontraron una caída del 16% en la actividad en el sitio web de codificación StackOverflow un año después del lanzamiento de ChatGPT. Esto sugiere que la asistencia de IA ya podría estar reduciendo las interacciones de persona a persona en algunas comunidades en línea.

La hiperproducción de granjas de contenido impulsadas por IA también está haciendo más difícil encontrar contenido que no sea cebo de clics lleno de anuncios.

Se está volviendo imposible distinguir de manera confiable entre contenido generado por humanos y contenido generado por IA. Un método para remediar esto sería marcar o etiquetar el contenido generado por IA, como yo y muchos otros hemos destacado recientemente, y como se refleja en la legislación provisional reciente del gobierno australiano.

También hay otro riesgo. A medida que el contenido generado por IA se vuelve sistemáticamente homogéneo, corremos el riesgo de perder la diversidad sociocultural y algunos grupos de personas podrían incluso experimentar una eliminación cultural. Necesitamos urgentemente investigaciones interdisciplinarias sobre los desafíos sociales y culturales que plantean los sistemas de IA.

Las interacciones y datos humanos son importantes, y debemos protegerlos. Por nuestro propio bien, y quizás también por el posible riesgo de un colapso de modelos en el futuro.


Este artículo ha sido publicado por The Conversation. Lea el original aquí.

Responder

Your email address will not be published.