fbpx

Hola mundo en esta entrada vamos a hablar sobre análisis exploratorio de datos en R o EDA.

EDA en el proceso DataScience

en rasgos muy generales el proceso de data saben se puede conceptualizar en este mapa que tenemos acá

Primero tendríamos como el mundo que son los datos de la realidad que nosotros vamos luego a recolectar a través de diferentes mecanismos o lenguajes de programación. Luego esos datos van a ser procesados y recolectados para pasar por un proceso de limpieza.

De ahí, esos datos van a pasar al análisis exploratorio de datos o a los modelos estadísticos dependiendo del caso. También puede darse el caso que del análisis exploratorio pasemos directamente a la comunicación y visualización de datos.

La parte que le tocaría a R en todo este proceso sería un poco la parte de limpieza de datos (como hemos visto con dplyr), análisis exploratorio de datos y los modelos la parte de comunicación visualización y reporte se puede ver un poco a través de las gráficas.

Fases en la exploración de datos en R

Ahora, hablemos sobre el proceso de análisis de exploratorio y siempre el objetivo o la idea va a ser sacar conclusiones para tomar decisiones. Para reducir sus costos o aumentar sus ganancias. En el caso científico y de investigación puede ser extraer información importante sobre preguntas para el avance de la ciencia.

La idea de este proceso va a ser primero generar esas preguntas de interés, de generar hipótesis antes de meternos y saltar a explorar los datos. Luego vendría la exploración que vamos a ver más a fondo en esta entrada. Por último, vendría la parte de dar las conclusiones a partir de la exploración que hemos hecho.

En cuanto a la exploración podemos separarla en tres grandes fases: una de transformación de datos, otra de generar tablas resumen y otra de gráficas. Ahora, esto en R lo podemos ver utilizando los paquetes tidyr y dplyr para la transformación y limpieza de datos.

Si estos paquetes no te suenan son del universo de tidyverse y luego para generar las tablas resumen podemos utilizar y dplyr con summarise y group by. Para crear gráficos explicativos te recomiendo utilizar ggplot2.

Técnicas EDA

Veamos algunas técnicas importantes del análisis exploratorio de datos o el EDA. Estas técnicas serían: los resúmenes estadísticos, distribuciones de frecuencias, percentiles y box plot y correlaciones dispersión.

Asimismo, te recomiendo que si no tienes idea de cómo hacer un análisis exploratorio puedes usar estas cuatro técnicas para empezar y seguir haciendo como una especie de checklist.

Resúmenes Estadísticas

Cuando hablamos de estadísticas resumen nos referimos a cosas como conteos, cantidad de información o algunas otras estadísticas como la media, la mediana, la desviación típica o el mínimo y el máximo.

En R, podemos ver estos resúmenes utilizando el comando summarise en los datos. En este caso, son los datos de gapminder que tienen información de países años y su población esperanza de vida y economía:

Distribuciones de frecuencia

Un segundo paso en el análisis exploratorio sería la distribución de la frecuencia. Esta podemos verla a través de los histogramas. Son gráficas de barras con la distribución de la frecuencia.

  • –En R: –
    • hist() –
  • Geometrías ggplot –
    • geom_hist() –
    • geom_density()

Percentiles y BoxPlot

El tercer paso para hacer un análisis exploratorio podría ser estudiar los percentiles y boxplots. Estos se utilizan para medir la distribución acumulada. Estas medidas se agrupan en tres grandes grupos:

  • uno sería la mediana que divide la distribución en dos, es decir, que mide hasta que el número de la distribución se acumula el 50% de los datos
  • los cuartiles dividen a la distribución en cuatro partes q1 q2 y q3 donde uno y tres serían el 25 y el 75% mientras que el q 2 sería el 50% que sería a su vez lo mismo que la mediana
  • los percentiles tienen una función similar pero dividen la distribución en 100 partes iguales.

Todo esto de los percentiles es útil para estudiarlo a través de la box plot la box plot o gráfico de cajas y bigotes este que tenemos acá:

  • –En R: –
    • boxplot() –
  • Geometrías ggplot –
    • geom_boxplot() –
    • geom_violin()

Correlaciones y Dispersión

Por último, hablemos de correlación. La correlación representa asociación o dependencia y es importante acá destacar que ésta puede ser causal o no.

Es muy posible que si has estado en una clase de estadística o ha hablado con algún científico de datos, éste te diga que la correlación no implica causalidad. Ahora, esto lo que significa es que, si bien la dependencia significa que hay una asociación entre variables, hay una causa y efecto.

El ejemplo de esto es el del reloj. Yo tengo un reloj que cuando la manecilla marca a las seis de la tarde suenan las campanas de una iglesia que está enfrente de mi casa. Esto ocurre todos los días. Es decir que hay una dependencia, hay una asociación, entre el hecho de que el reloj marque las seis y suene la campana.

Sin embargo, el reloj no hace que suene la campana ni la campana hace que el reloj marque las seis. Son fenómenos aislados que ocurren al mismo tiempo pero no son causales.