fbpx

Hola mundo! Te gustaría aprender que es python para data science cómo se usa como aprenderlo y cómo puedes empezar a trabajar en python para data science desde ya? En esta entrada vamos a verlo.

Qué es Python?

Python es un lenguaje de programación de propósito general. Esto lo que significa es que tiene múltiples usos y paquetes que pueden ser utilizados por distintos profesionales de informática para hacer cosas muy variadas.

Desde desarrollo web videojuegos ingeniería de software y lo que nos interesa a nosotros data science.

python además es software libre lo que significa que es gratuito se puede utilizar sin ningún problema y ha crecido muchísimo gracias a la comunidad que tiene que dar soporte y ayuda a mejorar continuamente este lenguaje de programación.

Python para Data Science

para mostrar el uso de python en data science me gusta este mapa que muestra todo el proceso de ciencia de datos

Este empieza donde tenemos los datos de la realidad y recolectamos los datos, los procesamos, los limpiamos y de ahí pueden pasar a diversos análisis o modelos. Finalmente, pasan a productos de datos o conclusiones de algún análisis.

Python está muy bien hecho y con distintas paqueterías que nos pueden ayudar desde el comienzo utilizando el APIs para extraer datos o con otras librerías que se encargan después de la manipulación transformación visualización y modelado de los datos.

Así python es un lenguaje muy completo que te pueda ayudar en cada una de las fases del proceso de data science.

Mi caso de uso con python

Para ir un poco más concreto en mi propio caso de uso de python para ciencias de datos pues te cuento.

Fui estudiante de matemáticas en Venezuela con muy poco conocimiento de programación. Conocía algo de R pero es verdad que python tuve que otra vez volver a aprender.

Además, tenía mucho gusto por la estadística, las matemáticas, el análisis y también estudié en México otro tiempo en donde aprendí más también de python para análisis de datos. Luego tuve algunos trabajos en marketing digital y la banca. Ahí sí que afiance mucho más estos conocimientos de programación.

En sí los usos que yo le daba a python para ciencia de datos ha sido trabajar en un equipo en donde desarrollamos un modelo de análisis de sentimientos en twitter. Entonces, esto era extraer los datos de twitter, transformarlos y hacer distintas combinaciones. Luego para distintos tweets o el mensaje que decía poder predecir si era positivo o negativo.

Todo esto hecho con python

También después, trabajé en el análisis y pronóstico de series temporales donde nos pasaban datos de cierta información o cantidad que queríamos modelar y pronosticar a futuro.

Uno de los últimos casos con los que estoy más actualmente trabajando tiene que ver con la transformación y manipulación de datos en bigdata con pyspark. Es un tema quizá más avanzado porque incluye cómputo distribuido y cosas que no vamos a ver en esta entrada.

Pero sí mencionar que la versatilidad de python y toda esta potencia es lo que hace que sea uno de los lenguajes prioritarios si te interesa todo esto de la ciencia de datos.

Mi recomendación para aprender

Así que, pues si este es tu caso te podría recomendar aprender esto paso a paso. En principio, te recomendaría aprender sobre estructuras de datos en python.

Luego, manipulación de datos con las librerías de numpy y pandas y visualización en matplotlib.

Cuando hayas alcanzado esta etapa, digamos más básica, ya prepararte mirar todo lo que sabes y ahí escoger o dirigirte en algunas de las ramas de data science que pudieran ser interesantes. Por ejemplo, modelación estadística con sklearn, inteligencia artificial o procesos ETL como lo que te contaba un poco más atrás con pyspark y computo distribuido.

Mencionarte que hay mucho sitios en internet donde puede aprender como vídeos de youtube, entrada de blog y puedes también hacer competiciones en kagle.

Kagle es una página en donde te dan los datos y tú vas construyendo algoritmos de machine learning y de programación con r y con python. Te puede servir mucho para empezar a practicar y tener mucho más dominio de la ciencia de datos.

Cómo empezar

Si aún no lo has hecho puedes empezar ya instalando python y anaconda (pronto dejaré el enlace por aquí). Así, también ejecutar tus primeras líneas de código utilizando jupyter notebook.

Con esto, ya estará arrancando y dando ese primer paso para aprender a programar python para ciencia de datos

Conclusión

Chévere porque ya puedes empezar a trabajar con python para ciencia de datos. Espero que esta entrada te ayude mucho!

Soy Rafa y te mando un saludo donde quiera que estés