Análisis Exploratorio de Datos: clave en la gestión de negocios
EDA es la sigla en inglés para Exploratory Data Analysis y consiste en una de las primeras tareas que tiene que desempeñar el Científico de Datos
EDA es la sigla en inglés para Exploratory Data Analysis y consiste en una de las primeras tareas que tiene que desempeñar el Científico de Datos. Es cuando revisamos por primera vez los datos que nos llegan, por ejemplo, un archivo CSV que nos entregan y deberemos intentar comprender “¿de qué se trata?”, vislumbrar posibles patrones y reconociendo distribuciones estadísticas que puedan ser útiles en el futuro.
¡OJO!, lo ideal es que tengamos un objetivo que nos hayan “adjuntado” con los datos, que indique lo que se quiere conseguir a partir de esos datos. Por ejemplo, nos pasan un excel y nos dicen “Queremos predecir ventas a 30 días”, ó “Clasificar casos malignos/benignos de una enfermedad”, “Queremos identificar audiencias que van a realizar re-compra de un producto”, “queremos hacer pronóstico de fidelización de clientes/abandonos”, “Quiero detectar casos de fraude en mi sistema en tiempo real”.
EDA deconstruido
Al llegar un archivo, lo primero que deberíamos hacer es intentar responder:
• ¿Cuántos registros hay?
• ¿Son demasiado pocos?
• ¿Son muchos y no tenemos Capacidad (CPU+RAM) suficiente para procesarlo?
• ¿Están todas las filas completas o tenemos campos con valores nulos?
• En caso que haya demasiados nulos: ¿Queda el resto de información inútil?
• ¿Que datos son discretos y cuáles continuos?
• Muchas veces sirve obtener el tipo de datos: texto, int, double, float
• Si es un problema de tipo supervisado:
• ¿Cuál es la columna de “salida”? ¿binaria, multiclase?
• ¿Esta balanceado el conjunto salido?
• ¿Cuáles parecen ser features importantes? ¿Cuáles podemos descartar?
• ¿Siguen alguna distribución?
• ¿Hay correlación entre features (características)?
• En problemas de NLP (Natural Lenguaje Program) es frecuente que existan categorías repetidas o mal tipiadas, o con mayúsculas/minúsculas, singular y plural, por ejemplo “Abogado” y “Abogadas”, “avogado” pertenecerían todos a un mismo conjunto.
• ¿Estamos ante un problema dependiente del tiempo? Es decir, un TimeSeries.
• Si fuera un problema de Visión Artificial: ¿Tenemos suficientes muestras de cada clase y variedad, para poder hacer generalizar un modelo de Machine Learning?
• ¿Cuáles son los Outliers? (unos pocos datos aislados que difieren drásticamente del resto y “contaminan” ó desvían las distribuciones)
• Podemos eliminarlos? ¿es importante conservarlos?
• son errores de carga o son reales?
• ¿Tenemos posible sesgo de datos? (por ejemplo, perjudicar a clases minoritarias por no incluirlas y que el modelo de ML discrimine)
Puede ocurrir que tengamos set de datos incompletos y debamos pedir a nuestro cliente/proveedor o interesado que nos brinde mayor información de los campos, que aporte más conocimiento o que corrija campos.
También puede que nos pasen múltiples fuentes de datos, por ejemplo, un csv, un excel y el acceso a una base de datos. Entonces tendremos que hacer un paso previo de unificación de datos.
¿Qué sacamos del EDA?
El EDA será entonces una primera aproximación a los datos, Atención, si estamos más o menos bien preparados y suponiendo una muestra de datos “suficiente”, puede que en “unas horas” tengamos ya varias conclusiones como, por ejemplo:
• Esto que quiere hacer el cliente con estos datos es una locura imposible! (esto ocurre la mayoría de las veces)
• No tenemos datos suficientes o son de muy mala calidad, pedir más al cliente.
• Un modelo de tipo Árbol es lo más recomendado usar
• (¡reemplazar Árbol, por el tipo de modelo que hayamos descubierto como mejor opción!)
• No hace falta usar Machine Learning para resolver lo que pide el cliente. (¡Esto es muy importante!)
• Es todo tan aleatorio que no habrá manera de detectar patrones
• Hay datos suficientes y de buena calidad como para seguir a la próxima etapa.
A estas alturas podemos saber si nos están pidiendo algo viable ó si necesitamos más datos para comenzar.
Repito por si no quedó claro: el EDA debe tomar horas, ó puede que un día, pero la idea es poder sacar algunas conclusiones rápidas para contestar al cliente si podemos seguir o no con su propuesta.
Luego del EDA, suponiendo que seguimos adelante podemos tomarnos más tiempo y analizar en mayor detalle los datos y avanzar a nuevas etapas para aplicar modelos de Machine Learning.
Técnicas para EDA
¿Qué herramientas tenemos hoy en día? La verdad es que como cada conjunto de datos suele ser único, el EDA se hace bastante “a mano”, pero podemos seguir diversos pasos ordenados para intentar acercarnos a ese objetivo que nos pasa el cliente en pocas horas.
A nivel programación y como venimos utilizando Python, encontramos a la conocida librería Pandas, que nos ayudará a manipular datos, leer y transformarlos.
Finalmente podemos decir que nuestra Intuición -basada en Experiencia previa, no en corazonadas- y nuestro conocimiento de casos similares también nos pueden aportar pistas para saber si estamos ante datos de buena calidad. Por ejemplo, si alguien quiere hacer reconocimiento de imágenes de tornillos y tiene 25 imágenes y con muy mala resolución podremos decir que no tenemos muestras suficientes -dado nuestro conocimiento previo de este campo.
Autor: Ignacio Manuel Fernandez - Business Analyst Prisma Medios de Pago
Te puede interesar
CEO de Nvidia Advierte: China Puede Superar a EEUU en Inteligencia Artificial
Jensen Huang, director ejecutivo de Nvidia, intensificó sus críticas a las políticas estadounidenses sobre inteligencia artificial. Durante la cumbre del Financial Times, el CEO advirtió que el país asiático podría ganar la batalla tecnológica si Estados Unidos no cambia su estrategia regulatoria
Grokipedia: La Enciclopedia de Elon Musk que Desafía a Wikipedia con Inteligencia Artificial
El multimillonario lanzó su alternativa a Wikipedia con 885.279 artículos, aunque expertos cuestionan la fiabilidad de los modelos de IA para crear contenido enciclopédico
Amazon Automatizará el 75% de sus Operaciones: 600.000 Empleos Serán Reemplazados por Robots antes de 2033
El gigante del comercio electrónico busca ahorrar más de 12,600 millones de dólares mediante inteligencia artificial y robótica avanzada en sus centros logísticos globales
Nvidia, AMD y Broadcom Retienen Talento con "Esposas de Oro": Empleados Ganan Millones en Acciones
Los gigantes fabricantes de semiconductores implementan estrategias agresivas de retención mediante compensaciones millonarias en acciones. Nvidia, Broadcom y AMD aprovechan el boom de inteligencia artificial para vincular salarios al precio accionario. La táctica genera dilemas éticos y financieros entre trabajadores que enfrentan pérdidas millonarias si abandonan sus puestos antes del período estipulado
Big Tech reporta resultados: 15 billones de dólares en juego durante 36 horas críticas
Alphabet, Meta, Microsoft, Amazon y Apple presentan sus estados financieros esta semana. Los inversores vigilarán de cerca los gastos en inteligencia artificial y el crecimiento de servicios cloud
ChatGPT Supera 800 Millones de Usuarios Semanales: El Doble que Google Gemini y Copilot Juntos
El chatbot de inteligencia artificial de OpenAI maneja volumen récord de consultas superando a todos sus competidores combinados. La velocidad de adopción global no tiene precedentes para ninguna tecnología nueva. El 70% de las consultas no están relacionadas con el trabajo según estudios recientes
ChatGPT Alcanza 800 Millones de Usuarios Semanales: El Crecimiento Tecnológico Más Rápido de la Historia
OpenAI domina inteligencia artificial con adopción que supera 10% de población adulta mundial. Sora AI logró millón de descargas en cinco días. Competidores como Meta AI y Grok quedan rezagados en carrera por usuarios
xAI de Elon Musk Apuesta por Videojuegos con IA: Contrata Expertos de Nvidia y Promete Lanzamiento en 2026
La startup de inteligencia artificial de Elon Musk desarrolla "modelos mundiales" para videojuegos y robótica. Ofrece salarios de 200.000 dólares y fichó especialistas clave de Nvidia para competir contra Meta y Google
Bernie Sanders propone impuestos a los Robots ante la amenaza de IA que eliminaría 100 millones de empleos
El senador de Vermont plantea un impuesto a los robots como solución para proteger a trabajadores estadounidenses frente al avance de la inteligencia artificial y la automatización. Su informe advierte sobre una disrupción laboral sin precedentes en la próxima década que podría transformar la economía más rápido que cualquier revolución industrial anterior