Análisis Exploratorio de Datos: clave en la gestión de negocios

EDA es la sigla en inglés para Exploratory Data Analysis y consiste en una de las primeras tareas que tiene que desempeñar el Científico de Datos

Tecnología19/04/2024 Ignacio Manuel Fernandez

La Newsletter de Gustavo Reija - Economista-CEO NETIA GROUP

Informe Privado Semanal - Suscripción Mensual (4 informes) con MERCADOPAGO

EDA es la sigla en inglés para Exploratory Data Analysis y consiste en una de las primeras tareas que tiene que desempeñar el Científico de Datos. Es cuando revisamos por primera vez los datos que nos llegan, por ejemplo, un archivo CSV que nos entregan y deberemos intentar comprender “¿de qué se trata?”, vislumbrar posibles patrones y reconociendo distribuciones estadísticas que puedan ser útiles en el futuro.

¡OJO!, lo ideal es que tengamos un objetivo que nos hayan “adjuntado” con los datos, que indique lo que se quiere conseguir a partir de esos datos. Por ejemplo, nos pasan un excel y nos dicen “Queremos predecir ventas a 30 días”, ó “Clasificar casos malignos/benignos de una enfermedad”, “Queremos identificar audiencias que van a realizar re-compra de un producto”, “queremos hacer pronóstico de fidelización de clientes/abandonos”, “Quiero detectar casos de fraude en mi sistema en tiempo real”.

EDA deconstruido

Al llegar un archivo, lo primero que deberíamos hacer es intentar responder:

• ¿Cuántos registros hay?

• ¿Son demasiado pocos?

• ¿Son muchos y no tenemos Capacidad (CPU+RAM) suficiente para procesarlo?

• ¿Están todas las filas completas o tenemos campos con valores nulos?

• En caso que haya demasiados nulos: ¿Queda el resto de información inútil?

• ¿Que datos son discretos y cuáles continuos?

• Muchas veces sirve obtener el tipo de datos: texto, int, double, float

• Si es un problema de tipo supervisado:

• ¿Cuál es la columna de “salida”? ¿binaria, multiclase?

• ¿Esta balanceado el conjunto salido?

• ¿Cuáles parecen ser features importantes? ¿Cuáles podemos descartar?

• ¿Siguen alguna distribución?

• ¿Hay correlación entre features (características)?

• En problemas de NLP (Natural Lenguaje Program) es frecuente que existan categorías repetidas o mal tipiadas, o con mayúsculas/minúsculas, singular y plural, por ejemplo “Abogado” y “Abogadas”, “avogado” pertenecerían todos a un mismo conjunto.

• ¿Estamos ante un problema dependiente del tiempo? Es decir, un TimeSeries.

• Si fuera un problema de Visión Artificial: ¿Tenemos suficientes muestras de cada clase y variedad, para poder hacer generalizar un modelo de Machine Learning?

• ¿Cuáles son los Outliers? (unos pocos datos aislados que difieren drásticamente del resto y “contaminan” ó desvían las distribuciones)

• Podemos eliminarlos? ¿es importante conservarlos?

• son errores de carga o son reales?

• ¿Tenemos posible sesgo de datos? (por ejemplo, perjudicar a clases minoritarias por no incluirlas y que el modelo de ML discrimine)

Puede ocurrir que tengamos set de datos incompletos y debamos pedir a nuestro cliente/proveedor o interesado que nos brinde mayor información de los campos, que aporte más conocimiento o que corrija campos.

También puede que nos pasen múltiples fuentes de datos, por ejemplo, un csv, un excel y el acceso a una base de datos. Entonces tendremos que hacer un paso previo de unificación de datos.

¿Qué sacamos del EDA?

El EDA será entonces una primera aproximación a los datos, Atención, si estamos más o menos bien preparados y suponiendo una muestra de datos “suficiente”, puede que en “unas horas” tengamos ya varias conclusiones como, por ejemplo:

• Esto que quiere hacer el cliente con estos datos es una locura imposible! (esto ocurre la mayoría de las veces)

• No tenemos datos suficientes o son de muy mala calidad, pedir más al cliente.

• Un modelo de tipo Árbol es lo más recomendado usar

• (¡reemplazar Árbol, por el tipo de modelo que hayamos descubierto como mejor opción!)

• No hace falta usar Machine Learning para resolver lo que pide el cliente. (¡Esto es muy importante!)

• Es todo tan aleatorio que no habrá manera de detectar patrones

• Hay datos suficientes y de buena calidad como para seguir a la próxima etapa.

A estas alturas podemos saber si nos están pidiendo algo viable ó si necesitamos más datos para comenzar.

Repito por si no quedó claro: el EDA debe tomar horas, ó puede que un día, pero la idea es poder sacar algunas conclusiones rápidas para contestar al cliente si podemos seguir o no con su propuesta.

Luego del EDA, suponiendo que seguimos adelante podemos tomarnos más tiempo y analizar en mayor detalle los datos y avanzar a nuevas etapas para aplicar modelos de Machine Learning.

Técnicas para EDA

¿Qué herramientas tenemos hoy en día? La verdad es que como cada conjunto de datos suele ser único, el EDA se hace bastante “a mano”, pero podemos seguir diversos pasos ordenados para intentar acercarnos a ese objetivo que nos pasa el cliente en pocas horas.

A nivel programación y como venimos utilizando Python, encontramos a la conocida librería Pandas, que nos ayudará a manipular datos, leer y transformarlos.

Finalmente podemos decir que nuestra Intuición -basada en Experiencia previa, no en corazonadas- y nuestro conocimiento de casos similares también nos pueden aportar pistas para saber si estamos ante datos de buena calidad. Por ejemplo, si alguien quiere hacer reconocimiento de imágenes de tornillos y tiene 25 imágenes y con muy mala resolución podremos decir que no tenemos muestras suficientes -dado nuestro conocimiento previo de este campo.

Autor: Ignacio Manuel Fernandez - Business Analyst Prisma Medios de Pago

Tecnología

Últimas noticias

Milei promete eliminar retenciones pero sin cronograma definido

13News-Economía

Economía15/07/2025

El presidente Javier Milei estableció un compromiso directo con los máximos representantes del sector agropecuario argentino durante un extenso encuentro celebrado en las instalaciones de La Rural de Palermo

Te puede interesar

Cómo integran los CEOs de las tecnológicas líderes la inteligencia artificial en su rutinas empresariales diarias

13News-Tecnología

Tecnología12/07/2025

La revolución tecnológica ha transformado radicalmente las operaciones corporativas globales, evidenciando cómo ejecutivos principales adoptan herramientas de inteligencia artificial para optimizar procesos administrativos y decisiones estratégicas

Jensen Huang, CEO de Nvidia, lidera ranking tech con patrimonio récord

13News-Tecnología

Tecnología11/07/2025

El ascenso meteórico de la inteligencia artificial ha catapultado a Jensen Huang hacia las cimas de la riqueza global, consolidando al cofundador de Nvidia como una de las figuras más influyentes del ecosistema tecnológico mundial

Inteligencia Artificial: Altman enfrenta guerra de talento con Meta en Sun Valley 2025

13News-Tecnología

Tecnología09/07/2025

El director ejecutivo de OpenAI arribó al exclusivo encuentro empresarial de Idaho en medio de una intensificada competencia por profesionales especializados en inteligencia artificial

El mercado del "fin del mundo": Lideres tecnológicos construyen búnkeres para el apocalipsis

13News-Tecnología

Tecnología06/07/2025

La industria tecnológica ha desarrollado una obsesión particular por la supervivencia que trasciende las preocupaciones convencionales sobre estabilidad económica o social

Guerra Tecnológica: Meta crea laboratorio de superinteligencia artificial para derrotar a OpenAI

13News-Tecnología

Tecnología05/07/2025

La batalla por el dominio de la inteligencia artificial alcanza una nueva dimensión con el anuncio de Mark Zuckerberg sobre la creación de una división especializada destinada a competir directamente con los líderes del sector

Microsoft recorta 9000 empleos por cambios organizativos

13News-Tecnología

Tecnología03/07/2025

La tecnológica estadounidense Microsoft anunció la eliminación de aproximadamente 9000 puestos laborales, convirtiéndose en la tercera iniciativa de reducción de personal que implementa la compañía durante 2025

¿Qué son los Modelos mundo?: la apuesta tecnológica para superar nuevos límites en desarrollo de Inteligencia Artificial

13News-Tecnología

Tecnología30/06/2025

La carrera por dominar la inteligencia artificial ha tomado un giro inesperado. Mientras OpenAI y Anthropic continúan perfeccionando sus sistemas conversacionales, un selecto grupo de investigadores ha puesto sus miras en una tecnología radicalmente diferente que promete revolucionar nuestra comprensión de la IA

SoftBank y TSMC negocian megaproyecto de IA en EEUU por 1 billón de dólares

13News-Tecnología

Tecnología28/06/2025

La industria tecnológica global presencia una de las propuestas más ambiciosas de la década cuando el magnate japonés Masayoshi Son presenta su visión para revolucionar la manufactura estadounidense de inteligencia artificial

¿Por qué WhatsApp es el campo batalla IA entre Meta y sus rivales?

13News-Tecnología

Tecnología26/06/2025

La plataforma de mensajería instantánea más utilizada globalmente experimenta una transformación inesperada al convertirse en el escenario principal donde asistentes virtuales de inteligencia artificial compiten por la atención de usuarios, creando una paradoja estratégica para Meta que debe enfrentar la presencia de competidores directos dentro de su propio ecosistema

Lo más visto

Milei cierra puertas al diálogo provincial tras derrota en el senado. Enojo y veto en marcha

13News-Economía

Economía11/07/2025

La administración presidencial experimentó una nueva frustración legislativa cuando la Cámara Alta aprobó 3 iniciativas que el Ejecutivo considera perjudiciales para su programa de austeridad fiscal

grado-derecho-master-bolsa-mercados-financieros-1

Mercados argentinos enfrentan dilema entre reservas e inflación

13News-Economía

Economía11/07/2025

Los operadores financieros de la city porteña observan con creciente preocupación el panorama político y económico nacional, mientras navegan por aguas turbulentas que combinan tensiones electorales, presiones cambiarias y un escenario internacional complejo

Bloomberg muestra Bitcoin en millones: alza del precio dispara predicciones

13News-Cripto

Cripto11/07/2025

La plataforma financiera más influyente del mundo institucionalizó definitivamente la criptomoneda líder cuando modificó su sistema de visualización para expresar las cotizaciones en millones de dólares, marcando un hito psicológico que coincide con proyecciones extraordinariamente optimistas sobre su valuación futura

¿Elon Musk Presidente de EEUU? El sueño del magnate tecnológico que lanzó su partido político tras romper con Trump

13News-Internacional

Internacional12/07/2025

La fortuna de Elon Musk puede adquirir prácticamente cualquier cosa en Estados Unidos, excepto la posibilidad de ocupar el cargo presidencial

La Expropiación de YPF: Anatomía de una Crisis Jurídica que Trasciende lo Económico

13News-Economía

Economía13/07/2025

El caso YPF representa mucho más que una disputa legal sobre procedimientos expropiatorios; constituye un paradigma de cómo decisiones políticas mal ejecutadas pueden generar consecuencias sistémicas que perduran décadas

Milei posterga vetos y busca diálogo con gobernadores en La Rural

13News-Política

Política14/07/2025

La administración de Javier Milei enfrenta una semana decisiva tras la controvertida jornada parlamentaria que dejó al oficialismo en una posición defensiva

Sturzenegger propone no vetar la redistribución de fondos para las Provincias: "Si el presidente me consulta, yo le diría que esta no la vete"

13News-Economía

Economía14/07/2025

El ministro de Desregulación y Transformación del Estado, Federico Sturzenegger, planteó una estrategia política que podría revolucionar el sistema fiscal argentino

Dudas en mercados internacionales hacen caer valor de Bonos de Argentina

13News-Economía

Economía14/07/2025

Los activos financieros argentinos experimentan una jornada adversa en los mercados internacionales este lunes 14 de julio, reflejando la creciente incertidumbre que rodea la estabilidad política y fiscal del país

La jueza Preska rechazó pedido argentino de supensión de sentencia. ¿Argentina puede caer en desacato?

13News-Economía

Economía14/07/2025

La magistrada estadounidense Loretta Preska emitió una resolución adversa para los intereses argentinos en el extenso litigio vinculado a la nacionalización de la petrolera estatal

Newsletter