La escasez de datos fiables amenaza el desarrollo de la inteligencia artificial

Tecnología02/04/2024 13news-Tecnología

La Newsletter de Gustavo Reija - Economista y CEO de NETIA GROUP

4 informes exclusivos cada mes, con el análisis de las tendencias macroeconómicas y políticas con perspectivas sobre mercados financieros y su impacto en la industria. Recomendaciones estratégicas para inversores y empresarios.

Suscripción con MERCADOPAGO

En el vertiginoso mundo de la inteligencia artificial (IA), las empresas líderes como OpenAI y Anthropic se enfrentan a un desafío crucial: la escasez de datos fiables para entrenar sus modelos lingüísticos (LLM). Esta situación podría obstaculizar el desarrollo de chatbots cada vez más avanzados y precisos, en un momento en que la carrera por ofrecer los mejores productos de IA se intensifica.

La importancia de los datos fiables en el entrenamiento de la IA
Los chatbots como ChatGPT de OpenAI se entrenan con grandes cantidades de información, como artículos científicos, noticias y entradas de Wikipedia. La calidad y fiabilidad de estos datos son fundamentales para que los modelos generen respuestas precisas y deseables. Sin embargo, se estima que para 2028, la demanda de datos de alta calidad superará la oferta de material de entrenamiento disponible, según Pablo Villalobos, experto en IA de la firma de investigación Epoch.

Desafíos en la obtención de datos adecuados
Gran parte de la información pública disponible en internet no es adecuada para el entrenamiento de la IA debido a frases incompletas y otros defectos textuales. Además, la creciente cantidad de texto generado por la propia IA podría contaminar los modelos con sinsentidos, un fenómeno conocido como "colapso del modelo".

Restricciones de acceso a contenidos
Los principales medios de comunicación, plataformas de redes sociales y otras fuentes públicas han restringido el acceso a sus contenidos para el entrenamiento de la IA, citando preocupaciones sobre derechos de autor, privacidad y compensación justa. Asimismo, las personas se muestran reacias a que sus conversaciones y mensajes privados sean utilizados para estos fines.

En busca de nuevas fuentes de datos
Ante este panorama, las compañías están explorando nuevas fuentes de datos para mejorar sus herramientas. OpenAI, por ejemplo, está considerando entrenar GPT-5, su modelo más avanzado, con transcripciones de vídeos de YouTube. También se ha planteado la creación de un mercado de datos donde los proveedores puedan cobrar por contenidos valiosos para el entrenamiento de modelos. Google, por su parte, está estudiando un enfoque similar.

El potencial de los datos sintéticos
Algunas empresas están experimentando con "datos sintéticos" generados internamente para mejorar sus modelos. Anthropic ya ha incorporado este tipo de datos en Claude, su familia de chatbots de IA, mientras que OpenAI también estaría explorando esta posibilidad.

Preocupaciones sobre la calidad de los chatbots
La escasez de datos coincide con las quejas de los usuarios sobre la calidad de los chatbots de IA. Algunos han reportado problemas con GPT-4 de OpenAI para seguir instrucciones y responder consultas, mientras que Google tuvo que pausar la función de generación de imágenes por IA de su modelo Gemini debido a inexactitudes históricas.

Conclusión
A medida que las empresas buscan soluciones para seguir entrenando sus modelos de IA, algunas parecen dispuestas a limitar el tamaño de sus sistemas. Sam Altman, CEO de OpenAI, sugiere que la era de los modelos gigantes podría estar llegando a su fin, y que las mejoras vendrán por otros caminos. En este contexto, la búsqueda de datos fiables se perfila como un desafío clave para el futuro desarrollo de la inteligencia artificial.

AI Gen Anthropic IA OpenAI

Claves

La calidad del ajuste: lo que esconde el superávit del primer semestre

Gustavo Rodolfo Reija-CEO Netia Group SAS

Economía22/07/2026

El ajuste nunca lo pagó la "Casta", lo está pagando el futuro de Argentina con subejecución de partidas presupuestarias esenciales para el desarrollo.

Te puede interesar

La inteligencia artificial y la demanda de energía: ¿la nueva crisis invisible del siglo XXI?

Claudia Grioni-Analista Política

Tecnología23/03/2026

Los centros de datos podrían concentrar hasta el 8% del consumo eléctrico mundial en 2040. La IA promete optimizar recursos, pero su expansión sin regulación energética es el desafío estructural del siglo.

GPT-5.4: OpenAI lanza el primer modelo de IA que controla ordenadores de forma autónoma

Rocío Reija Directora Marketing Digital

Tecnología07/03/2026

El nuevo sistema integra razonamiento avanzado, codificación y agentes autónomos con capacidad para ejecutar flujos de trabajo complejos sin intervención humana, con un contexto de un millón de tokens.

Anthropic vs. Pentágono: la batalla por los límites de la IA que divide a Silicon Valley y al Congreso

Rocío Reija - Directora de Marketing Digital

Tecnología03/03/2026

OpenAI admitió que su acuerdo con el Departamento de Defensa fue "oportunista", mientras demócratas prometen legislación para proteger a empresas que marquen límites éticos al uso militar de la inteligencia artificial.

Anthropic vs. Pentágono: Dario Amodei rechaza uso militar de Claude y enfrenta ultimátum

Rocío Reija-Directora Marketing Digital

Tecnología25/02/2026

La startup de IA valorada en 380.000 millones de dólares tiene plazo hasta el viernes para ceder ante el Departamento de Defensa, que amenaza con invocar una ley de la Guerra Fría.

Agentes de IA Sin Controles de Seguridad: El Riesgo Sistémico que la Industria Tecnológica No Quiere Mostrar

Rocío Reija-Directora Marketing Digital

Tecnología20/02/2026

Un estudio de Cambridge, MIT y Stanford revela que solo 4 de 30 agentes de IA líderes publican documentos formales de seguridad. La autonomía crece. La transparencia, no. Las implicancias para empresas, inversores y usuarios son más graves de lo que el sector reconoce.

Guerra de titanes IA: OpenAI busca u$s100.000 millones y Anthropic vale u$s380.000 millones; la carrera que redefine el capitalismo tecnológico global

Rocío Reija-Directora Marketing Digital

Tecnología19/02/2026

Dos rondas de financiación históricas en el mismo mes configuran un nuevo paradigma de concentración de capital en inteligencia artificial. Amazon, SoftBank, Nvidia y Microsoft apuestan cifras sin precedentes mientras surgen interrogantes sobre la sostenibilidad estructural del modelo.

Lo más visto

El crecimiento que esconde una primarización

Redacción 13News

Economía24/06/2026

El PIB sube 2,3%, pero la industria y la inversión retroceden: el dato desnuda qué Argentina está creciendo primarizando su estructura productiva

Todas las fichas a la economía: la macro de la foto y el país que no aparece

Gustavo Rodolcfo Reija- CEO Netia Group SAS

Economía29/06/2026

El Gobierno apuesta a la reactivación para 2027, pero los dólares que celebra se fugan y la industria se contrae

El ancla que empieza a ceder: la baja calidad del ajuste fiscal argentino

Gustavo Rodolfo Reija-CEO Netia Group SAS

Economía17/07/2026

El resultado fiscal de junio, con déficit primario y financiero, comienza a mostrar la fragilidad de una de las bases del relato libertario: el ancla fiscal.

alarma-las-empresas-y-camaras-la-construccion-advierten-las-consecuencias-que-tendria-una-paralizaci

Infraestructura: el ajuste que se financia con el stock de capital

Gustavo Rodolfo Reija-CEO Netia Group SAS

Economía20/07/2026

La motosierra aplicada sobre los gastos de capital del Estado llevan a la Argentina a un poceso de descapitalización que atenta contra las posibilidades futuras de desarrollo.

La calidad del ajuste: lo que esconde el superávit del primer semestre

Gustavo Rodolfo Reija-CEO Netia Group SAS

Economía22/07/2026

El ajuste nunca lo pagó la "Casta", lo está pagando el futuro de Argentina con subejecución de partidas presupuestarias esenciales para el desarrollo.

Newsletter