13NewsesUser-agent: * Allow: / User-agent: Googlebot-News Allow: /

La Realidad, lo más increíble que tenemos

Análisis Exploratorio de Datos: clave en la gestión de negocios

EDA es la sigla en inglés para Exploratory Data Analysis y consiste en una de las primeras tareas que tiene que desempeñar el Científico de Datos
Tecnología19/04/2024 Ignacio Manuel Fernandez

La Newsletter de Gustavo Reija - Economista y CEO de NETIA GROUP

4 informes exclusivos cada mes, con el análisis de las tendencias macroeconómicas y políticas con perspectivas sobre mercados financieros y su impacto en la industria. Recomendaciones estratégicas para inversores y empresarios.

 Suscripción con MERCADOPAGO


 

EDA es la sigla en inglés para Exploratory Data Analysis y consiste en una de las primeras tareas que tiene que desempeñar el Científico de Datos. Es cuando revisamos por primera vez los datos que nos llegan, por ejemplo, un archivo CSV que nos entregan y deberemos intentar comprender “¿de qué se trata?”, vislumbrar posibles patrones y reconociendo distribuciones estadísticas que puedan ser útiles en el futuro.

¡OJO!, lo ideal es que tengamos un objetivo que nos hayan “adjuntado” con los datos, que indique lo que se quiere conseguir a partir de esos datos. Por ejemplo, nos pasan un excel y nos dicen “Queremos predecir ventas a 30 días”, ó “Clasificar casos malignos/benignos de una enfermedad”, “Queremos identificar audiencias que van a realizar re-compra de un producto”, “queremos hacer pronóstico de fidelización de clientes/abandonos”, “Quiero detectar casos de fraude en mi sistema en tiempo real”.

redditEl ascenso de Reddit en los resultados de búsqueda de Google: razones, riesgos y posibles consecuencias

 EDA deconstruido

Al llegar un archivo, lo primero que deberíamos hacer es intentar responder:

• ¿Cuántos registros hay?

• ¿Son demasiado pocos?

• ¿Son muchos y no tenemos Capacidad (CPU+RAM) suficiente para procesarlo?

• ¿Están todas las filas completas o tenemos campos con valores nulos?

• En caso que haya demasiados nulos: ¿Queda el resto de información inútil?

• ¿Que datos son discretos y cuáles continuos?

• Muchas veces sirve obtener el tipo de datos: texto, int, double, float

• Si es un problema de tipo supervisado:

• ¿Cuál es la columna de “salida”? ¿binaria, multiclase?

• ¿Esta balanceado el conjunto salido?

• ¿Cuáles parecen ser features importantes? ¿Cuáles podemos descartar?

• ¿Siguen alguna distribución?

• ¿Hay correlación entre features (características)?

• En problemas de NLP (Natural Lenguaje Program) es frecuente que existan categorías repetidas o mal tipiadas, o con mayúsculas/minúsculas, singular y plural, por ejemplo “Abogado” y “Abogadas”, “avogado” pertenecerían todos a un mismo conjunto.

• ¿Estamos ante un problema dependiente del tiempo? Es decir, un TimeSeries.

• Si fuera un problema de Visión Artificial: ¿Tenemos suficientes muestras de cada clase y variedad, para poder hacer generalizar un modelo de Machine Learning?

• ¿Cuáles son los Outliers? (unos pocos datos aislados que difieren drásticamente del resto y “contaminan” ó desvían las distribuciones)

• Podemos eliminarlos? ¿es importante conservarlos?

• son errores de carga o son reales?

• ¿Tenemos posible sesgo de datos? (por ejemplo, perjudicar a clases minoritarias por no incluirlas y que el modelo de ML discrimine)

 Puede ocurrir que tengamos set de datos incompletos y debamos pedir a nuestro cliente/proveedor o interesado que nos brinde mayor información de los campos, que aporte más conocimiento o que corrija campos.

También puede que nos pasen múltiples fuentes de datos, por ejemplo, un csv, un excel y el acceso a una base de datos. Entonces tendremos que hacer un paso previo de unificación de datos.

¿Qué sacamos del EDA?

El EDA será entonces una primera aproximación a los datos, Atención, si estamos más o menos bien preparados y suponiendo una muestra de datos “suficiente”, puede que en “unas horas” tengamos ya varias conclusiones como, por ejemplo:

• Esto que quiere hacer el cliente con estos datos es una locura imposible! (esto ocurre la mayoría de las veces)

• No tenemos datos suficientes o son de muy mala calidad, pedir más al cliente.

• Un modelo de tipo Árbol es lo más recomendado usar

• (¡reemplazar Árbol, por el tipo de modelo que hayamos descubierto como mejor opción!)

• No hace falta usar Machine Learning para resolver lo que pide el cliente. (¡Esto es muy importante!)

• Es todo tan aleatorio que no habrá manera de detectar patrones

• Hay datos suficientes y de buena calidad como para seguir a la próxima etapa.

A estas alturas podemos saber si nos están pidiendo algo viable ó si necesitamos más datos para comenzar.

Repito por si no quedó claro: el EDA debe tomar horas, ó puede que un día, pero la idea es poder sacar algunas conclusiones rápidas para contestar al cliente si podemos seguir o no con su propuesta.

Luego del EDA, suponiendo que seguimos adelante podemos tomarnos más tiempo y analizar en mayor detalle los datos y avanzar a nuevas etapas para aplicar modelos de Machine Learning.

cbe6027abdfed638055bcf44a7bfcc7dMeta lanza Llama 3, su nuevo modelo de IA, y Zuckerberg asegura que es el "asistente más inteligente de uso libre"

 Técnicas para EDA

¿Qué herramientas tenemos hoy en día? La verdad es que como cada conjunto de datos suele ser único, el EDA se hace bastante “a mano”, pero podemos seguir diversos pasos ordenados para intentar acercarnos a ese objetivo que nos pasa el cliente en pocas horas.

A nivel programación y como venimos utilizando Python, encontramos a la conocida librería Pandas, que nos ayudará a manipular datos, leer y transformarlos.

Finalmente podemos decir que nuestra Intuición -basada en Experiencia previa, no en corazonadas- y nuestro conocimiento de casos similares también nos pueden aportar pistas para saber si estamos ante datos de buena calidad. Por ejemplo, si alguien quiere hacer reconocimiento de imágenes de tornillos y tiene 25 imágenes y con muy mala resolución podremos decir que no tenemos muestras suficientes -dado nuestro conocimiento previo de este campo.

 Autor: Ignacio Manuel Fernandez - Business Analyst Prisma Medios de Pago

Claves
luis-caputo-1742456

Las tres debilidades del superávit fiscal argentino

Gustavo Rodolfo Reija-CEO Netia Group SAS
Economía08/04/2026
La recaudación tbutaria nacional acumuló su octava caída real interanual consecutiva en marzo de 2026, con una contracción del 7,5% real en el primer trimestre equivalente a $4,2 billones en moneda constante. La base imponible se achica. El IVA cayó 10,1% real. Los aportes de seguridad social, 3,9%. Ganancias, 11,3% en marzo. Pero el dato que el debate público sistemáticamente omite es que el superávit primario que se exhibe como ancla del programa no incorpora los intereses devengados de la deuda capitalizable — pasivo que se acumula silenciosamente sobre el stock soberano sin registrarse como egreso corriente. 
Te puede interesar
OIP

Guerra de titanes IA: OpenAI busca u$s100.000 millones y Anthropic vale u$s380.000 millones; la carrera que redefine el capitalismo tecnológico global

Rocío Reija-Directora Marketing Digital
Tecnología19/02/2026
Dos rondas de financiación históricas en el mismo mes configuran un nuevo paradigma de concentración de capital en inteligencia artificial. Amazon, SoftBank, Nvidia y Microsoft apuestan cifras sin precedentes mientras surgen interrogantes sobre la sostenibilidad estructural del modelo.
Lo más visto
OIP

Argentina Se Encareció 28,5% en Dólares Libres en 12 Meses: El Dato Exacto que Demuestra que la Estabilización Sin Desarrollo es Solo la Antesala del Próximo Colapso Cambiario

Gustavo Rodolfo Reija-Ceo Netia Group SAS
Economía02/04/2026
 Blue $1.300 el 31 de marzo de 2025. Blue $1.405 el 31 de marzo de 2026. Inflación acumulada estimada en 36,6% — con el consenso de consultoras privadas proyectando 3,2% para marzo. La aritmética es implacable: 28,5% de encarecimiento en dólares libres en exactamente doce meses. No es una proyección ni un modelo econométrico. Es la diferencia entre dos cierres de mercado y el IPC del INDEC. Y ese número documenta con precisión milimétrica por qué los ciclos de ancla cambiaria sin transformación productiva terminan siempre de la misma manera en Argentina.
OIP

Recaudación Cae 4% Real en Marzo, Industria -10% vs. 2022 y Empleo Estancado: los Tres Datos que Cierran el Círculo del Ajuste Sin Desarrollo

Gustavo Rodolfo Reija-Ceo Netia Group SAS
Economía03/04/2026
ARCA confirmó que la recaudación tributaria de marzo totalizó $16 billones con una suba nominal del 26,2% interanual — por debajo de la inflación estimada, lo que implica una contracción real superior al 4%. Simultáneamente, el IPI manufacturero cayó 3,2% interanual en enero y los datos adelantados de febrero anticipan -3% adicional. La capacidad instalada industrial opera al 53-54% y el empleo no registra variación neta en doce meses. Los tres indicadores no son datos aislados: son los componentes de un círculo vicioso que la motosierra no puede cortar porque ella misma lo está alimentando.
OIP

El PBI Sube. La Industria Cae. Eso No es Desarrollo: Es Crecimiento de Sectores Extractivos.

Redacción 13News
Economía04/04/2026
La economía argentina lidera el crecimiento regional según el BID, acumula USD 4.461 millones en reservas en el primer trimestre y reduce la pobreza al mínimo desde 2018. Pero la industria opera al 53,6% de su capacidad —el peor arranque desde 2002— y el país se encareció un 28,5% en dólares libres en doce meses. Estos son los siete datos de la semana que el relato oficial no logra integrar en un mismo discurso.
OIP

El modelo de estabilización sin transformación productiva tiene un techo — y los datos del INDEC Q4 2025 acaban de mostrarlo

Redacción 13News
Economía07/04/2026
Gini 0,427. Brecha decílica 13x estancada. Informalidad laboral 43,1%. Brecha salarial de género en máximo histórico de serie. El informe técnico del INDEC publicado el 6 de abril de 2026 confirma que Argentina puede optimizar su distribución del ingreso dentro de la estructura productiva actual hasta un techo aproximado de Gini 0,39 — y no más. Cruzar ese umbral hacia el rango de Uruguay (0,37) o el europeo (0,29/0,32) requiere formalización laboral masiva, densificación industrial en sectores complejos y negociación colectiva con alcance real. Cinco instrumentos de política con evidencia empírica documentada en casos exitosos. Ninguno en agenda hoy.
luis-caputo-1742456

Las tres debilidades del superávit fiscal argentino

Gustavo Rodolfo Reija-CEO Netia Group SAS
Economía08/04/2026
La recaudación tbutaria nacional acumuló su octava caída real interanual consecutiva en marzo de 2026, con una contracción del 7,5% real en el primer trimestre equivalente a $4,2 billones en moneda constante. La base imponible se achica. El IVA cayó 10,1% real. Los aportes de seguridad social, 3,9%. Ganancias, 11,3% en marzo. Pero el dato que el debate público sistemáticamente omite es que el superávit primario que se exhibe como ancla del programa no incorpora los intereses devengados de la deuda capitalizable — pasivo que se acumula silenciosamente sobre el stock soberano sin registrarse como egreso corriente. 
Suscríbete al newsletter para recibir periódicamente las novedades en tu email
13NewsesUser-agent: * Allow: / User-agent: Googlebot-News Allow: /