¿Qué es el análisis exploratorio de datos?

Muchos científicos de datos estarán de acuerdo en que es muy fácil perderse en los datos: cuanto más recopile, estudie y analice, más querrá explorar. Las madrigueras de información son lugares familiares y amigables para que los analistas de datos y los científicos de datos se sumerjan y pasen horas extrayendo, modelando y analizando estos grandes conjuntos de datos.

Los datos se recopilan y se alojan en algún tipo de repositorio de datos. Podría ser tan simple como una hoja de cálculo o tan compleja como una base de datos que comprende múltiples hojas de cálculo o conjuntos de datos. Generalmente, las filas de una base de datos son registros individuales, mientras que las columnas son las diversas características de cada registro. Pero el ojo humano (y el cerebro) solo pueden escanear tantos datos para analizarlos y aprender de ellos. El análisis exploratorio de datos permite a los analistas, científicos y líderes empresariales utilizar herramientas visuales para aprender de los datos.

ESCUELAS PATROCINADAS

Universidad Case Western Reserve

CWRU Data Analytics Boot Camp

CWRU Data Analytics Boot Camp es un programa riguroso a tiempo parcial que prepara a los estudiantes con las habilidades fundamentales para el análisis y la visualización de datos. A través de la instrucción práctica en persona, cubrirá una amplia gama de temas y se graduará listo para aplicar sus habilidades en la fuerza laboral.



Universidad de Columbia

Campamento de entrenamiento de análisis de datos de ingeniería de Columbia

¿Estás listo para convertirte en un profesional basado en datos? Columbia Engineering Data Analytics Boot Camp es un desafiante bootcamp a tiempo parcial que equipa a los estudiantes con las habilidades especializadas para el análisis y la visualización de datos a través de clases prácticas en persona.



Universidad de California, Berkeley

Berkeley Data Analytics Boot Camp

Convierta los datos en información procesable. Berkeley Data Analytics Boot Camp es un programa dinámico a tiempo parcial que cubre las herramientas y tecnologías en demanda para el análisis y la visualización de datos a través de clases rigurosas basadas en proyectos.



Universidad de Texas en Austin

El campamento de entrenamiento de análisis y visualización de datos en Texas McCombs

El Campamento de Entrenamiento de Análisis y Visualización de Datos en Texas McCombs pone la experiencia del estudiante en primer lugar, enseñando el conocimiento y las habilidades para realizar análisis de datos en una amplia gama de problemas del mundo real. Los estudiantes se sumergen en un plan de estudios integral, aprendiendo a recopilar, analizar y visualizar big data.



Universidad del Sur de California

USC Viterbi Data Analytics Boot Camp

Amplíe su conjunto de habilidades y crezca como analista de datos. Este programa cubre las habilidades especializadas para tener éxito en el campo de los datos en 24 semanas.



¿Qué es el análisis exploratorio de datos? Definición de EDA

El análisis exploratorio de datos (EDA) es lo que hacen los analistas de datos con grandes conjuntos de datos, buscando patrones y resumiendo las principales características del conjunto de datos más allá de lo que aprenden del modelado y las pruebas de hipótesis. EDA es una filosofía que permite a los analistas de datos acercarse a una base de datos sin suposiciones. Cuando un analista de datos emplea EDA, es como si estuvieran pidiendo a los datos que les digan lo que no saben.

El El Instituto Nacional de Estándares y Tecnología (NIST) describe EDA como un enfoque para el análisis de datos, no un modelo, que utiliza estas técnicas:

  • Maximice la información sobre un conjunto de datos.
  • Descubre las estructuras subyacentes.
  • Extraer variables importantes.
  • Detecte valores atípicos y anomalías.
  • Pruebe los supuestos subyacentes.
  • Desarrollar modelos parsimoniosos.
  • Determine la configuración óptima de los factores.

NIST explica que EDA es un enfoque para el análisis de datos que «pospone las suposiciones habituales sobre qué tipo de modelo [sigue] los datos» y permite que los datos revelen su estructura y modelo subyacentes.

EDA se utiliza normalmente para estos cuatro objetivos:

  • Explorar una sola variable y observar las tendencias a lo largo del tiempo.
  • Comprobación de datos en busca de errores.
  • Comprobación de supuestos.
  • Observar las relaciones entre variables.

ESCUELA PATROCINADA

Universidad de Londres

BSc en línea Ciencia de datos y análisis de negocios

El BSc Data Science and Business Analytics en línea de la Universidad de Londres, con dirección académica de LSE, permite a los estudiantes desarrollar habilidades esenciales de pensamiento técnico y crítico y prepararse para carreras en ciencia de datos, análisis y otros campos en crecimiento, mientras trabajan, sin reubicarse.



Ejemplo de análisis exploratorio de datos

No es inusual que un científico de datos emplee EDA antes que cualquier otro análisis o modelado de datos. A menudo es un paso en el análisis de datos que permite a los científicos de datos observar un conjunto de datos para identificar tendencias, valores atípicos, patrones y errores.

Ejemplo 1: EDA en el comercio minorista

En un entorno minorista, las aplicaciones de inteligencia empresarial y los expertos analizan los datos para medir las ventas en términos de cuántas unidades se vendieron, cuánto gastaron los clientes, qué compraron los compradores y la estacionalidad de las ventas; Luego, comparan las ventas mes a mes, trimestre a trimestre y año tras año. Hay muchos más puntos de datos que los minoristas miran, por supuesto, pero un analista de datos generalmente busca responder preguntas específicas: ¿Cuántas unidades se vendieron? ¿Durante qué período de tiempo? ¿Por cuánto? ¿Cuáles son los datos demográficos de nuestros clientes? Y así sucesivamente.

Un enfoque EDA hace diferentes preguntas. Por ejemplo, ¿qué tendencias vimos en el último año en unidades vendidas? En este Ejemplo de caso de estudio minorista de You CANalytics, un analista miraría este gráfico y notaría un hallazgo interesante en el número de categorías de productos compradas en un año. El número de categorías disminuyó, como se esperaba, pero luego se disparó a más de 50. ¿Por qué? Una investigación posterior reveló que otros minoristas les estaban comprando y revendiendo sus productos. Esto podría permitir al minorista desarrollar una estrategia de ventas de empresa a empresa y establecer relaciones con estos minoristas más pequeños.

Ejemplo 2: EDA en la investigación de atención médica

En un estudio publicado en PLoS ONE sobre el análisis exploratorio de datos de un grupo de estudio clínico, los investigadores utilizaron EDA para verificar la homogeneidad de su población de pacientes e identificar valores atípicos, pero también lo usaron para ayudarlos a identificar subpoblaciones).

Los pacientes en el estudio fueron identificados por 40 atributos, incluido el sexo. Se verificó que los grupos femeninos eran más homogéneos que el conjunto masculino, que los investigadores segmentaron en cinco subgrupos. Los investigadores recomendaron pruebas separadas para los cinco subgrupos masculinos, con el fin de evitar llevar a conclusiones falsas para los ensayos clínicos.

Ejemplo 3: EDA en registros médicos electrónicos

Los hospitales, los departamentos de salud y las redes de atención médica contienen grandes cantidades de datos recopilados de registros médicos electrónicos (EMR) que los no expertos en datos no saben qué hacer con ellos. Estos EMR están sujetos a intensas regulaciones de cumplimiento para proteger la privacidad de los pacientes. Sin embargo, las organizaciones de atención médica están buscando formas de aprovechar los datos sin vincularlos a las personas.

En un estudio publicado por Journal of Medical Internet Research, Un grupo de investigadores construyó un sistema visual de minería de datos y lo probó en el EMR de más de 14,000 pacientes que sufren de enfermedad renal crónica (ERC). Los investigadores tomaron 13 años de información para construir visualizaciones de la progresión de la ERC a lo largo del tiempo, así como la presencia de otras afecciones médicas que están presentes en los pacientes con ERC al mismo tiempo, lo que puede afectar sus resultados.

Técnicas y herramientas

Los métodos EDA generalmente caen en métodos gráficos o no gráficos y métodos univariados o multivariados. Se basa en gran medida en las imágenes, que los analistas utilizan para buscar patrones, valores atípicos, tendencias y resultados inesperados.

EDA gráfica vs. no gráfica

El análisis exploratorio gráfico de datos emplea herramientas visuales para mostrar datos, tales como:

  • Diagramas de caja: se utilizan para representar gráficamente los datos a través de sus cuartiles en cinco puntos de datos: valores más bajo, primero, mediano, tercero y máximo; También a veces se llama diagrama de bigotes. Los analistas lo usan para observar grandes conjuntos de datos. Un ejemplo de esto en la práctica es una empresa de servicios públicos que rastrea el uso del agua mensualmente.
  • Mapa de calor: visualización de datos que utiliza colores para comparar y contrastar números en un conjunto de datos; También conocidas como matrices de sombreado. Un ejemplo de esto en la práctica serían los análisis de tráfico, que analizan los patrones de tráfico pesado por hora del día, día de la semana y temporada.
  • Histogramas: gráfico de barras que agrupa los números en una serie de intervalos, especialmente cuando hay una variable infinita, como pesos y medidas. Por ejemplo, se puede usar para medir el crecimiento agrícola donde las unidades se agruparían en rangos de altura (100-150 cm frente a 100, 101, 102, etc.).
  • Gráficos de líneas: uno de los tipos más básicos de tablas que traza puntos de datos en un gráfico; tiene una gran cantidad de usos en casi todos los campos de estudio.
  • Pictogramas: reemplaza los números por imágenes para explicar visualmente los datos. Son comunes en el diseño de infografías, así como imágenes que los científicos de datos pueden usar para explicar hallazgos complejos a profesionales que no son científicos de datos y al público.
  • Scattergrams o diagramas de dispersión: normalmente se utilizan para mostrar dos variables en un conjunto de datos y luego buscar correlaciones entre los datos. Por ejemplo, los científicos podrían usarlo para evaluar la presencia de dos productos químicos o gases particulares en la vida marina en un esfuerzo por buscar una relación entre las dos variables.

El análisis exploratorio no gráfico de datos implica la recopilación de datos y la presentación de informes en formatos no visuales o no pictóricos.