Hola mundo! Te gustaría saber qué es un data scientist? En esta entrada vamos a ver cuáles son las habilidades que se necesitan para ser un científico de datos?
Muy bien el objetivo de esta entrada es saber y conocer cuáles son las 3+1 habilidades que debería tener un científico de datos.
Para esto, vamos a ver primero qué es un data scientist. Luego, vamos a entrar más en profundidad en esas habilidades y por qué la hemos llamado tres más uno.
Por último, vamos a ver cómo estas habilidades sirven para definir algunos caminos que pudieran servir para ser un científico de datos.
Espero que te sirva a ti para conocerlas y decidir qué caminos puedes utilizar en el caso de que quieras convertirte en un científico de datos.
¿Qué es un Data Scientist?
Primero, ¿qué esto de científico de datos? ¿cómo es esto que es la profesión más sexy del siglo 21? Veamos este tweet de 2012 de Josh Wills para empezar
Tweet de Josh Wills
Él lo pone algo así como que es la persona que sabe más de estadística que cualquier ingeniero de software y que sabe más de ingeniería de software que cualquier estadístico.
Esta definición, además del juego de palabras, me gusta porque ya menciona dos habilidades importantísimas de la ciencia de datos. Creo que éstas son el core y son la parte de programación y la parte de matemática y estadística.
Entonces, si te fijas, la persona que tiene estas dos puede ser muy bueno en todas las partes de machine learning y de inteligencia artificial. Veamos ahora un dibujo bastante popular en el mundo de Data Science.
Diagrama de venn de Drew Conway
En 2013, Drew Conway saca el famosísimo diagrama de venn de data science.
Este posiblemente ya lo hayas visto y aquí no solamente son dos sino tres habilidades donde se agrega la «substantive expertise» que para mí un poco tiene que ver con el conocimiento de áreas de negocio o de academia.
Esto, en conjunto con la habilidad de programación y de matemática harían como una definición del data scientist:
Lo que me gusta de este diagrama es que la intersección de los círculos pone alguna palabra que es clave para entender qué es un científico de datos.
Por ejemplo, entre programación y matemática pues pone lo que sería machine learning.
Además, entre matemática y la experiencia de negocio o de academia estaría la investigación tradicional. Esto un poco es el trabajo que han hecho los estadísticos de toda la vida ya sea en la industria o en la academia.
Por otro lado, está lo que él llama la «danger zone» y aquí OJO! orque esto sí lo he visto mucho y hay que tener cierto cuidado porque cuando hablamos de utilizar experiencia y utilizar programación pero sin el background matemático pudiéramos cometer errores.
También, este diagrama está en un artículo que escribió el mismo conway que te voy a dejar el enlace por aquí
Diagrama «evolucionado» de Stephan Kolasa
En 2014, Stephen Kolasa hace como una evolución de este diagrama e incluye una cuarta habilidad de comunicación. Para mí, es súper importante y que a veces se toma muy poco en cuenta. Es por esto que se esta entrada se llama las 3+1 habilidades de científico de datos
Ahora, este diagrama, aunque se ve mucho más complejo, es mucho más enriquecedor en el sentido de que tiene las mismas intersecciones y agrega otra componente de comunicación.
Caminos para convertirse en Data Scientist
Ahora vamos a ver unos caminos que pudiéramos utilizar para convertirnos en data scientists basándonos en estas cuatro habilidades.
El objetivo podríamos verlo como llegar a la zona de amarillo en el centro. Digamos que esto sería cuando ya tienes todas las habilidades y serías como el «perfecto data scientist». Esto, sin embargo, pues sabemos que no existe. Pero es una forma de plantearnos la visión o el rumbo de nuestra carrera profesional.
El primer camino que te voy a hablar es un poco el que seguí yo y esto es haber empezado desde el punto de vista de estadística
The Data Nerd
Si estás aquí eres como en el data nerd: el que sabe de todos los modelos, el que sabe de estadística, el que sabe de matemática, pero que te falta un poco de programación de cómo comunicar esos resultados y por supuesto del negocio.
Entonces, si estás aquí mi consejo pues lo primero sería que aprendieras un poco más de programación y de ser posible también de comunicación si pudieras hacer algo como dar clases dando a la universidad sería genial.
Eso pues te llevaría a estar como la parte superior. Lo importante es que podrías ser un buen consultor. Ya una vez llegado a este punto puede trabajar perfectamente en una posición como data scientist, al menos a nivel junior. Luego en el trabajo es donde vas a ir adquiriendo esa habilidad de negocio. Con eso, llegarías a tener que estas dos habilidades que están al fondo del diagrama.
The Hacker
Ahora, el caso número dos sería si empiezas como desde el punto de vista de programación. Serías como «el hacker» este es un perfil que he visto también muchos compañeros de mi trabajo han empezado así siendo informático y poco a poco han ido ampliando sus habilidades para convertirse en data scientist.
La ruta que he visto que han seguido y que aconsejaría también aprender sobre machine learning, sobre matemática, en esta parte de álgebra también un poco para entender la parte de cómo funcionan los modelos. Si pudieras combinarlo con comunicación sería genial aunque no lo veo como un requisito primordial. Pero digamos que con eso llegarías a tener toda la parte superior cubierta, con lo que también te podría llevar a tener ese nivel de data scientist junior que sería súper bien!
También cuando vayas adquiriendo tus primeros trabajos y que te vayas enterando un poco cómo es la parte de negocios puede llegar a ser como pone en el diagrama «el IT guy» o incluso el master o el head de IT. Esto, por lo general, son la gente que está en lo que se llama arquitectura en una empresa que son los que diseñan cómo es la infraestructura tecnológica de una empresa.
The Accountant
Un tercer camino puede empezar del punto de vista de negocios sin tener tanto conocimiento de programación ni tanto conocimiento de machine learning o estadísticas.
Digamos que este perfil sería el de la esquina superior derecha que lo pone como «el contador o el contable». En mi experiencia este tipo de profesionales es súper intuitivo en la parte de negocio. A mí me ha gustado trabajar con estas personas porque pueden incluso predecir lo que va a dar un modelo sin haberlo hecho al tener una intuición bastante buena de lo que más o menos tiene que salir.
Esa intuición es lo que más tienes que aprovechar si vienes desde este punto del diagrama. Lo que yo te recomendaría es aprender primero un poquito más de analítica (si es que no lo sabes porque por lo general estas personas saben bastante ya de estadística). En caso de que sí, puedes empezar con la parte de programación. Esto te ayudaría a comunicarte mejor con los otros miembros del equipo de data science y entender qué es lo que están haciendo.
Este tipo de personas en mi opinión son buenos jefes y buenos líderes de equipo porque saben hacia dónde tiene que dirigirse. Si después ver que te gusta mucho la programación podrías incluso meterte en la parte de TI. Al desarrollar estas habilidades te acercarías más a ese objetivo máximo de ser «el data scientist perfecto».
Genial!
Espero que estas habilidades de un data scientist te ayuden un poco más a saber como orientar tu carrera profesional! Te mando un saludo donde quiera que estés!