Cómo lidiar con los datos faltantes

Los datos faltantes pueden sesgar cualquier cosa para los científicos de datos, desde el análisis económico hasta los ensayos clínicos. Después de todo, cualquier análisis es tan bueno como los datos. Un científico de datos no quiere producir estimaciones sesgadas que conduzcan a resultados no válidos. El concepto de datos faltantes está implícito en el nombre: son datos que no se capturan para una variable para la observación en cuestión. La falta de datos reduce el poder estadístico del análisis, lo que puede distorsionar la validez de los resultados, según un artículo en el Revista coreana de anestesiología.

ESCUELAS PATROCINADAS

Universidad de Siracusa

Maestría en Ciencias en Ciencia de Datos Aplicada

La Maestría en Ciencias en Ciencia de Datos en línea de la Universidad de Syracuse se puede completar en tan solo 18 meses.

  • Completar en tan solo 18 meses
  • No se requieren puntajes GRE para aplicar



Universidad de California, Berkeley

Máster en Ciencia de la Información y Datos

Obtenga su Maestría en Ciencia de Datos en línea de UC Berkeley en tan solo 12 meses.

  • Completar en tan solo 12 meses
  • No se requiere GRE



Universidad Metodista del Sur

Maestría en Ciencias en Ciencia de Datos

Obtenga su maestría en Ciencia de Datos en SMU, donde puede especializarse en Aprendizaje Automático o Análisis de Negocios, y completar en tan solo 20 meses.

  • No se requiere GRE.
  • Completar en tan solo 20 meses.



Afortunadamente, existen técnicas probadas para lidiar con los datos faltantes.

Imputación vs. eliminación de datos

Cuando se trata de datos faltantes, Científicos de datos Puede utilizar dos métodos principales para resolver el error: la imputación o la eliminación de datos.

El método de imputación desarrolla conjeturas razonables para los datos faltantes. Es más útil cuando el porcentaje de datos faltantes es bajo. Si la porción de datos faltantes es demasiado alta, los resultados carecen de variación natural que podría resultar en un modelo efectivo.

La otra opción es eliminar datos. Cuando se trata de datos que faltan al azar, los datos relacionados se pueden eliminar para reducir el sesgo. La eliminación de datos puede no ser la mejor opción si no hay suficientes observaciones para dar como resultado un análisis confiable. En algunas situaciones, puede ser necesaria la observación de eventos o factores específicos.

Antes de decidir qué enfoque emplear, los científicos de datos deben entender por qué faltan los datos.

Desaparecidos al azar (MAR)

Falta al azar significa que faltan datos en relación con los datos observados. No está relacionado con el Faltan valores específicos. Los datos no faltan en todas las observaciones, pero solo dentro de submuestras de los datos. No se sabe si los datos deberían estar allí; en su lugar, falta dados los datos observados. Los datos faltantes se pueden predecir en función de los datos completos observados.

Desaparecido completamente al azar (MCAR)

En la situación del MCAR, el Faltan datos en todas las observaciones independientemente del valor esperado u otras variables. Los científicos de datos pueden comparar dos conjuntos de datos, uno con observaciones faltantes y otro sin ellas. Usando una prueba t, si no hay diferencia entre los dos conjuntos de datos, los datos se caracterizan como MCAR.

Es posible que falten datos debido al diseño de la prueba, fallas en las observaciones o fallas en el registro de las observaciones. Este tipo de datos se consideran MCAR porque las razones de su ausencia son externas y no están relacionadas con el valor de la observación.

Por lo general, es seguro eliminar datos MCAR porque los resultados serán imparciales. La prueba puede no ser tan poderosa, pero los resultados serán confiables.

Missing Not at Random (MNAR)

La categoría MNAR se aplica cuando el Los datos que faltan tienen una estructura. En otras palabras, parece haber razones por las que faltan los datos. En una encuesta, tal vez un grupo específico de personas, digamos mujeres de 45 a 55 años, no respondió una pregunta. Al igual que MAR, los datos no pueden ser determinados por los datos observados, porque la información faltante es desconocida. Los científicos de datos deben Modelar los datos faltantes para desarrollar una estimación imparcial. Simplemente eliminar observaciones con datos faltantes podría resultar en un modelo con sesgo.

Deleción

Hay dos métodos principales para eliminar datos cuando se trata de datos faltantes: listwise y eliminando variables.

Listwise

En este método, se eliminan todos los datos de una observación a la que le faltan uno o más valores. El análisis se ejecuta solo en observaciones que tienen un conjunto completo de datos. Si el conjunto de datos es pequeño, puede ser el método más eficiente para eliminar esos casos del análisis. Sin embargo, en la mayoría de los casos, los datos no faltan completamente al azar (MCAR). La eliminación de las instancias con observaciones faltantes puede dar lugar a parámetros y estimaciones sesgados y reducir el poder estadístico del análisis.

Pairwise

La eliminación por pares asume que los datos faltan completamente al azar (MCAR), pero todos los casos con datos, incluso aquellos con datos faltantes, se utilizan en el análisis. La eliminación por pares permite a los científicos de datos utilizar más datos. Sin embargo, las estadísticas resultantes pueden variar porque se basan en diferentes conjuntos de datos. Los resultados pueden ser Imposible de duplicar con un conjunto completo de datos

Eliminación de variables

Si faltan datos durante más de 60% de las observaciones, puede ser prudente descartarlo si la variable es insignificante.

Imputación

Cuando faltan datos, puede tener sentido eliminar datos, como se mencionó anteriormente. Sin embargo, esa puede no ser la opción más efectiva. Por ejemplo, si se descarta demasiada información, puede que no sea posible completar un análisis confiable. O puede haber datos insuficientes para generar una predicción confiable para las observaciones que tienen datos faltantes.

En lugar de eliminar, los científicos de datos tienen múltiples soluciones para imputar el valor de los datos faltantes. Dependiendo de por qué faltan los datos, los métodos de imputación pueden ofrecer resultados razonablemente confiables. Estos son ejemplos de métodos de imputación única para reemplazar los datos faltantes.

Media, mediana y modo

Este es uno de los métodos más comunes de imputación de valores cuando se trata de datos faltantes. En los casos en que hay un pequeño número de observaciones faltantes, los científicos de datos pueden calcular la media o mediana de las observaciones existentes. Sin embargo, cuando faltan muchas variables, pueden producirse resultados medios o medianos. en una pérdida de variación en los datos. Este método no utiliza características de series temporales ni depende de la relación entre las variables.

Métodos específicos de series temporales

Otra opción es utilizar métodos específicos de series temporales cuando sea apropiado para imputar datos. Hay Cuatro tipos de datos de series temporales:

  • Sin tendencia ni estacionalidad.
  • Tendencia, pero sin estacionalidad.
  • Estacionalidad, pero sin tendencia.
  • Tanto tendencia como estacionalidad.

Los métodos de imputación de series temporales asumen que las observaciones adyacentes serán como los datos faltantes. Estos métodos funcionan bien cuando esa suposición es válida. Sin embargo, estos métodos no siempre producirán resultados razonables, particularmente en el caso de una fuerte estacionalidad.

Última observación llevada adelante (LOCF) y siguiente observación llevada hacia atrás (NOCB)

Estas opciones se utilizan para Analizar datos de medidas repetidas longitudinales, en el que pueden faltar observaciones de seguimiento. En este método, cada valor faltante se reemplaza con el último valor observado. Los datos longitudinales rastrean la misma instancia en diferentes puntos a lo largo de una línea de tiempo. Este método es fácil de entender e implementar. Sin embargo, este método puede introducir sesgo cuando los datos tienen una tendencia visible. Asume que el valor no ha cambiado por los datos que faltan.

Interpolación lineal

La interpolación lineal se utiliza a menudo para aproximar un valor de alguna función mediante el uso de dos valores conocidos de esa función en otros puntos. Esta fórmula también puede entenderse como un promedio ponderado. Los pesos están inversamente relacionados con la distancia desde los puntos finales hasta el punto desconocido. El punto más cercano tiene más influencia que el punto más lejano.

Cuando se trata de datos faltantes, debe usar este método en una serie temporal que muestre una línea de tendencia, pero no es apropiado para datos estacionales.

Ajuste estacional con interpolación lineal

Cuando se trate de datos que exhiban características de tendencia y estacionalidad, utilice el ajuste estacional con interpolación lineal. Primero, realizaría el ajuste estacional calculando un promedio móvil centrado o tomando el promedio de múltiples promedios, por ejemplo, dos promedios de un año, que se compensan con un período en relación con otro. A continuación, puede completar el suavizado de datos con interpolación lineal como se mencionó anteriormente.

ESCUELAS PATROCINADAS

Universidad de Siracusa

Maestría en Ciencias en Business Analytics

¿Busca convertirse en un líder experto en datos? Obtenga su Maestría en Ciencias en Análisis de Negocios en línea de la Universidad de Syracuse.

  • Tan solo 18 meses para completar
  • No se requiere GRE para aplicar



Imputación múltiple

La imputación múltiple se considera un buen enfoque para conjuntos de datos con una gran cantidad de datos faltantes. En lugar de sustituir un solo valor por cada punto de datos faltante, los valores que faltan se intercambian por valores que abarcar la variabilidad natural y la incertidumbre de los valores correctos. Usando los datos imputados, el proceso se repite para hacer múltiples conjuntos de datos imputados. Cada conjunto se analiza utilizando los procedimientos analíticos estándar, y los múltiples resultados del análisis se combinan para producir un resultado general.

Las diversas imputaciones incorporan variabilidad natural en los valores faltantes, lo que crea una inferencia estadística válida. Las imputaciones múltiples pueden producir resultados estadísticamente válidos incluso cuando hay un tamaño de muestra pequeño o una gran cantidad de datos faltantes.

K Vecinos más cercanos

En este método, los científicos de datos eligen una medida de distancia para k vecinos, y el promedio se utiliza para imputar una estimación. El científico de datos debe seleccionar el número de vecinos más cercanos y la métrica de distancia. KNN puede identificar el valor más frecuente entre los vecinos y la media entre los vecinos más cercanos.

Más información sobre la ciencia de datos

Cuando trabajas como científico de datos, a menudo te enfrentarás a conjuntos de datos imperfectos. Analizar datos con información faltante es una parte importante del trabajo como científico de datos. Avanzar en su carrera en ciencia de datos puede ayudarlo a aprender a abordar estos problemas y más.