La escasez de datos fiables amenaza el desarrollo de la inteligencia artificial
En el vertiginoso mundo de la inteligencia artificial (IA), las empresas líderes como OpenAI y Anthropic se enfrentan a un desafío crucial: la escasez de datos fiables para entrenar sus modelos lingüísticos (LLM)
En el vertiginoso mundo de la inteligencia artificial (IA), las empresas líderes como OpenAI y Anthropic se enfrentan a un desafío crucial: la escasez de datos fiables para entrenar sus modelos lingüísticos (LLM). Esta situación podría obstaculizar el desarrollo de chatbots cada vez más avanzados y precisos, en un momento en que la carrera por ofrecer los mejores productos de IA se intensifica.
La importancia de los datos fiables en el entrenamiento de la IA
Los chatbots como ChatGPT de OpenAI se entrenan con grandes cantidades de información, como artículos científicos, noticias y entradas de Wikipedia. La calidad y fiabilidad de estos datos son fundamentales para que los modelos generen respuestas precisas y deseables. Sin embargo, se estima que para 2028, la demanda de datos de alta calidad superará la oferta de material de entrenamiento disponible, según Pablo Villalobos, experto en IA de la firma de investigación Epoch.
Desafíos en la obtención de datos adecuados
Gran parte de la información pública disponible en internet no es adecuada para el entrenamiento de la IA debido a frases incompletas y otros defectos textuales. Además, la creciente cantidad de texto generado por la propia IA podría contaminar los modelos con sinsentidos, un fenómeno conocido como "colapso del modelo".
Restricciones de acceso a contenidos
Los principales medios de comunicación, plataformas de redes sociales y otras fuentes públicas han restringido el acceso a sus contenidos para el entrenamiento de la IA, citando preocupaciones sobre derechos de autor, privacidad y compensación justa. Asimismo, las personas se muestran reacias a que sus conversaciones y mensajes privados sean utilizados para estos fines.
En busca de nuevas fuentes de datos
Ante este panorama, las compañías están explorando nuevas fuentes de datos para mejorar sus herramientas. OpenAI, por ejemplo, está considerando entrenar GPT-5, su modelo más avanzado, con transcripciones de vídeos de YouTube. También se ha planteado la creación de un mercado de datos donde los proveedores puedan cobrar por contenidos valiosos para el entrenamiento de modelos. Google, por su parte, está estudiando un enfoque similar.
El potencial de los datos sintéticos
Algunas empresas están experimentando con "datos sintéticos" generados internamente para mejorar sus modelos. Anthropic ya ha incorporado este tipo de datos en Claude, su familia de chatbots de IA, mientras que OpenAI también estaría explorando esta posibilidad.
Preocupaciones sobre la calidad de los chatbots
La escasez de datos coincide con las quejas de los usuarios sobre la calidad de los chatbots de IA. Algunos han reportado problemas con GPT-4 de OpenAI para seguir instrucciones y responder consultas, mientras que Google tuvo que pausar la función de generación de imágenes por IA de su modelo Gemini debido a inexactitudes históricas.
Conclusión
A medida que las empresas buscan soluciones para seguir entrenando sus modelos de IA, algunas parecen dispuestas a limitar el tamaño de sus sistemas. Sam Altman, CEO de OpenAI, sugiere que la era de los modelos gigantes podría estar llegando a su fin, y que las mejoras vendrán por otros caminos. En este contexto, la búsqueda de datos fiables se perfila como un desafío clave para el futuro desarrollo de la inteligencia artificial.
Te puede interesar
Trump considera alivio arancelario como moneda de cambio en negociaciones sobre TikTok con China
El presidente de Estados Unidos, Donald Trump, insinuó la posibilidad de ofrecer reducciones arancelarias a China como parte de una estrategia para alcanzar un acuerdo sobre el futuro de TikTok en territorio estadounidense, según declaraciones recogidas durante una reciente rueda de prensa en la Casa Blanca
ChatGPT rompe récords tras boom de imágenes al estilo Ghibli
El fenómeno viral de la creación de ilustraciones inspiradas en el emblemático estudio japonés ha catapultado a la plataforma de OpenAI hacia cifras sin precedentes de usuarios, mientras la compañía enfrenta considerables desafíos técnicos para satisfacer la creciente demanda
OpenAI revoluciona el panorama tecnológico con millonaria inversión y nuevo modelo de código semiabierto
OpenAI marcó un hito histórico en el ecosistema tecnológico al anunciar simultáneamente una ronda de financiación sin precedentes de 40.000 millones de dólares y el desarrollo de su primer modelo de inteligencia artificial con pesos abiertos desde 2019
Musk integra X a su imperio de IA: venta interna por u$d 33 mil millones restructura su ecosistema tecnológico
Elon Musk ha orquestado una reorganización estratégica de sus empresas mediante una transacción interna que implica la venta de la plataforma X (anteriormente Twitter) a xAI, su compañía de inteligencia artificial
Scale AI se adjudica contrato con el Pentágono para llevar agentes de IA al campo militar
La incorporación de sistemas de inteligencia artificial en la toma de decisiones militares acaba de dar un salto cualitativo sin precedentes
Las 5 IA chinas que superan a ChatGPT: Manus y DeepSeek revolucionan el mercado global en 2025
Los avances en inteligencia artificial de compañías chinas están redibujando el panorama tecnológico internacional, con innovaciones que no solo compiten con los gigantes estadounidenses sino que en algunos casos los superan, provocando reacciones significativas en los mercados financieros globales
Las empresas que no adopten IA en sus procesos enfrentarán obsolescencia para 2030
Un reciente análisis efectuado por Elev8 Digital Skills señala que el 91% de los directivos y responsables de equipos digitales corporativos consideran la transformación digital como elemento fundamental para garantizar la supervivencia empresarial durante la próxima década.
Estudio revela riesgos de dependencia emocional y cognitiva por uso excesivo de ChatGPT
Una reciente investigación científica ha encendido alarmas sobre posibles consecuencias psicológicas derivadas del uso intensivo de sistemas de inteligencia artificial conversacional
Jensen Huang mantiene la confianza en Nvidia pese a las preocupaciones sobre demanda de chips de IA
Durante la reciente conferencia GTC en San José, California —considerada por muchos como la "Super Bowl de la inteligencia artificial"— el consejero delegado Jensen Huang demostró una inquebrantable confianza en el futuro de su compañía, a pesar de las crecientes inquietudes entre inversores