En esta entrada, veremos Qué es tidyverse y por cuales paquetes se compone. Al final, habrás visto:
¿Qué es Tidyverse?
Tidyverse es un conjunto de paquetes en R diseñados para ciencia de datos. Esto lo que significa es que ayuda en todo el proceso de importar transformar visualizar modelar y comunicar toda la información que normalmente utilizamos en procesos de ciencia de datos.
La ventaja que tienen estos paquetes que comparten nombre y estructuras comunes. Hay cosas como por ejemplo que todos los nombres están en minúscula o que utilizan la barra baja para llamar a las funciones.
Esto mantiene una consistencia a lo largo de todos sus paquetes que permite que sea más fácil utilizarlos.
Estos paquetes de R son mantenidos por la comunidad y por el RStudio.
Ventajas y desventajas de usar tidyverse
Es odiado por unos y amados por otros.
Por un lado, facilita el análisis y manipulación de datos. Una desventaja de tidyverse que deja de lado la forma usual de programación en R. Por lo tanto, si eres un usuario que ha estado trabajando con R desde mucho antes de tidyverse, puede ser que este cambio sea un poco brusco.
Un ejemplo sería utilizar los «pipes» que es para conectar varias funciones o en el caso de dplyr para filtrar y hacer un montón de operaciones sobre los datos.
¿Cómo instalar tidyverse?
Instalar tidyverse es tan sencillo como hemos hecho con otros paquetes. Usamos la función install.packages
Paquetes de tidyverse
Tidyverse cuenta con ocho paquetes principales los cuales he dividido en dos partes los básicos y los intermedios
ggplot2
Este es un paquete para visualización que utiliza la gramática de los gráficos. En esta entraba hablamos más de ggplot2.
dplyr
Este paquete ayuda con los problemas comunes de manipulación de datos en un lenguaje basado en acciones sobre los mismos datos. Esto permite hacer cosas como mutar o crear nuevas variables, seleccionar, filtrar, sumarizar, acomodar o agrupar las variables que tengamos en nuestras tablas.
tidyr
Este paquete ayuda a transformar los datos para hacerlos más eficientes o tidy. Esto lo que significa es que vamos a poder transformar las filas y las columnas de una forma eficiente para que los datos cumplan con estas tres condiciones
- que cada columna sea una variable
- que cada fila sea una observación y
- que cada celda sea un valor
Esto ayuda muchísimo a la hora de modelar y de graficar los dato
readr
Un cuarto paquete que ya hemos utilizado también este blog es readr. Lo hemos utilizado en este caso para leer archivos de texto plano como csv. Permite también leer otro tipo de archivo este sería un primo también de readxl
purrr
Este paquete facilita el trabajo con vectores y funciones en un lenguaje consistente está muy relacionado a lo que sería la programación funcional.
tibble
viene a ser una transformación del data frame. Esto lo hemos utilizado en alguna ocasión cuando hemos cargado datos utilizando readr. La ventaja de utilizar este paquete es que aprovecha lo bueno de los data frame y mejora algunas opciones que quedaron obsoletas ya en versiones anteriores.
stringr
Es un paquete para trabajar con un análisis de texto y manipulación de strings en casos. Por ejemplo donde descargamos ese montón de tweets y queremos buscar cierta información o cuando queremos buscar dentro de la url de las páginas y de todo el texto del html.
forcats
Es un paquete especial para lidiar con factores y datos categóricos.
Otros paquetes
Para leer datos
- readxl (Excel)
- haven (SPSS, Stata, SAS)
Manipulación de datos
- lubridate (fechas y tiempos)
- hms (para horas, minutos, segundos)
- blob (para datos binarios)
¿Cómo aprenderlos todos?
Aquí haríamos un parado primero y preguntarnos por qué queremos aprender. En principio mi recomendación es que si lo que busca es empezar por lo básico aprendas los primeros cuatro paquetes.
Esto te daría una base para empezar a hacer cualquier tipo de análisis o tipo de manipulación de datos y en la medida en que vaya necesitando algún otro paquete como ya sea el de texto o factores.
Conclusión
Empieza por lo básico y luego ve avanzando conforme a tus necesidades
Espero que esta entrada te haya sido de utilidad! Comparte con aquellos que no saben que es TIDYVERSE!
Te mando un saludo donde quiera que estés 😀