Hola mundo! te causa confusión saber todas las actividades de trabajo que realiza un data scientist en su día a día
esto es normal porque a la hora de desarrollar un proyecto de datos ocurren distintas fases y saberse las actividades de cada una de ellas puede ser difícil
soy rafa trabajo como data scientist y en esta entrada quiero contarte un poquito desde mi punto de vista lo que son las diferentes actividades de ciencia de datos
muy bien el objetivo de esta entrada es explicar una metodología o el proceso de ciencia de datos
para eso vamos a ver qué es una metodología y por qué es importante utilizarla utilizar procesos en un proyecto de datos
luego vamos a ver qué hace un data scientist explicando cada una de las fases de ese proceso
y por último veremos otras metodologías u otros procesos que existen en el mundo de ciencia de datos
¿Qué es una Metodologías?
una metodología esto es como una serie de pasos que sirven para lograr un fin en común
digamos que en proyectos de datos tenemos un punto inicial y un punto final al que queremos llegar y vamos a utilizar una serie de pasos o fases o como lo quieran llamar para lograr ese fin
esto de la metodología es importante para proyectos grandes de ciencia de datos esta diferencia de proyectos más pequeños como pudieran ser tareas de la universidad o algún portfolio de datos
en esos casos pequeños digamos que de un solo tirón podemos hacer toda la recolección procesamiento análisis conclusión mientras que en un proyecto más grande esto se complica y por eso necesitamos para organizarnos una metodología que porfa se vaya moviendo poco a poco avanzando en ese objetivo que queremos lograr
siempre sin dejar de lado qué estructura más o menos de todas las metodologías va a ser algo así como iniciar con el problema desarrollarlo y dar conclusiones
y algo que ocurre desde mi punto de vista en el mundo de data science es que como algo relativamente nuevo no hay un acuerdo o un convenio sobre cuál es la mejor metodología a usar y por eso cada data zanetti ha optado por bueno utilizar algunas que existen o incluso crear o modificar la suya propia
en esta entrada vamos a ver una que se llama data science process que la he sacado de un libro que se llama doing data science este libro es de Rachel Schutt y Cathy O’Neil
también que otra forma en cómo vamos a encontrar esto además de data science process puede ser palabras como lifecycle workflow o también una metodología que se llama crisisDM que está la vamos a ver un poquito más detalle al final de esta entrada
¿Qué hace un data Scientist?
chévere hablemos ahora de las fases del proceso de ciencia de datos
Recolección de datos
para empezar está el resto del colegio o de la recolección que tiene que ver con esa fase inicial en donde estamos en contacto también con la realidad con los clientes con el negocio y nos pasan los datos de diferentes formas ya sea por ejemplo en excel csv o incluso escrito y que después nosotros tengamos que pasarlo a la computadora o he visto incluso en pdf
esto nos llevaría a la segunda fase que precisamente el procesamiento de datos
Procesamiento de datos
aquí un poquito lo que vamos a querer es utilizar base de datos y ETL para dejar ya las tablas un poquito más parecida a la versión final o de donde podamos empezar a explorar
pero antes de esa fase vendría lo que sería la limpieza de datos
Limpieza de datos
aquí es donde los sin títulos todos tendemos a pasar muchísimo tiempo porque al hacer la exploración y los modelos no siempre vamos a utilizar los datos como se llaman en crudo o la versión raw
sino que vamos a tener que hacer cierta limpieza de los datos ya sea a nivel de filtros columnas o alguna letra que esté mal escrita a veces pasa como que nos traen era de negativa que es algo que no tiene sentido y todo este tipo de cosas hay que ir limpiando
luego vendría la fase de exploración
Exploración de datos
esto lo hemos visto un poco cuando hablamos de EDA o el exploratory data análisis y aquí lo que queríamos es hacer preguntas de interés sobre los datos y resolverla o responderlas utilizando estadística descriptiva y algunas gráficas o tablas adaptadas para ello
también es una fase en donde pudiéramos justificar el uso de modelos estadísticos
Modelos de datos
En esta fase vamos a aplicar modelos de machine learning para responder de una manera más profunda las preguntas de análisis que nos hacemos.
luego de estas fases más de análisis y de machine learning pueden vendría la parte de los entregables de entrada producto
Comunicación y Productos de datos
esto ya sería en forma de dashboard de aplicaciones o tambiénla última fase la de comunicación que podría hacer esa donde hacemos los reportes y gráficas finales
de esta forma puedes ver cómo todo ese proceso nos va llevando desde una fase inicial donde tenemos los datos digamos en crudo y los vamos procesando luego los vamos analizando y luego vamos creando cosas con ellos para responder preguntas y aportar valor
Relación con otras profesiondes de datos
aquí también es interesante relacionarlos como hicimos en otra entrada con las profesiones de datos todo esto que hablábamos del data engineer el data analyst y el data scientist
y como cada profesión se puede especializar en algunas de estas fases esto es sumamente importante cuando estamos en un proyecto muy grande donde hay varias personas colaborando juntas
Otras metodologías para Data Science
genial ya que tenemos ahora está idea en la cabeza vamos a hablar de otros modelos de pensamiento u otra metodología o procesos que existen en el mundo de ciencia de datos
Data Science WorkFlow
ahora sí empecemos a hablar con este otro procedimiento o esta otra metodología aunque me gusta esta en particular llamarla un modelo de pensamiento es esta que se llama el data science workflow
básicamente son como están nubes de pensamiento que aparecen acá y un poco son las acciones que ocurren dentro de la mente del data scientist de lo que va haciendo paso a paso
la primera parte sería esta de hacer preguntas de internes esto también muy relacionado y haciendo preguntas en conjunto con los equipos de negocio
luego y también en esa comunicación con el negocio o la academia obtener los datos y acá cuando decimos obtener es desde lo crudo hasta el procesamiento y la limpieza
para luego hacer la exploración los modelos y la comunicación final
Data Science LifeCycle
otra metodología que está quizá en la que es más analítica es esta que se llama data science lifecycle
de forma resumida te lo cuento lo primero sería la parte del negocio esa interacción esa felicitación o preguntas que se hacen con la gente de negocios para saber qué quieren y qué podemos ofrecerle
luego la parte del data mining que es cuando accedemos a las tablas oa la información cómo vengan los datos y no la traemos a nuestro entorno de trabajo
para luego en otra fase limpiarla de aquí empezaríamos con la exploración y luego esta otra fase que en particular me gusta de esta metodología es que pone el feature engineering
esto es porque cuando hacemos un modelo no siempre nos vamos a quedar con todas las variables de hecho a veces vamos a tener que restringir nuestro conjunto de datos para los modelos entonces esto es lo que hace referencia a acá
luego vendría la parte de los modelos predictivos o el tipo de modelo que vayamos a usar
para luego ir a la fase final de visualización y comunicación de los datos
CRISP-DM
por último esta metodología que se llama crisp dm es una de las que más me gusta y me parece que son más robustas dentro de la literatura de data science
acá para empezar pues también está la parte del negocio o de la academia pues es interacción de hacer preguntas con los interesados de los resultados del proyecto de datos
y luego pasar al conocimiento de los datos ya sea puede obtener las tablas procesarla todas éstas para luego prepararlas con esa que ETL y la limpieza
y luego daría paso a los modelo y exploración todo esto para luego hacer una evaluación antes de hacer el deployment o la implementación del producto final
lo que me gusta de este modelo en lo de las flechas fijate que algunas van como en una dirección y otra en doble dirección también al final tiene un círculo grande que lo rodea
esto un poco lo que nos quiere decir es que el proceso de ciencia de datos en general los proyectos no es algo lineal es algo que va avanzando y retrocediendo porque nos hacemos preguntas y descubrimos cosas que nos hacen volver un poco hacia atrás y replantearnos lo que no habíamos dicho primero
esto es totalmente normal está bien de hecho se parece mucho a la filosofía de las metodologías agile en donde empiezas con un producto y cada vez iterando para mejorarlo y mejorarlo y mejorarlo
Genial!
Genial porque ya sabríamos entonces lo que el proceso de data science y algunas metodologías 😀
Espero esta información te ayude a decidir si Data Science es una profesión que vale la pena para ti! Te mando un saludo donde quiera que estés