AHORA NUESTROS CURSOS TAMBIÉN ONLINE
ONLINE
Contactar
Menu
ALUMNOS
Contactar

¿Cómo se desarrolla un proyecto de Data Science?

1 de octubre de 2020 10:16:57 CEST

En este artículo conoceremos el proceso que sigue un data scientist para desarrollar un proyecto de Data Science de principio a fin, con el objetivo de entender cuáles son las etapas que lo conforman y cómo interactúan entre sí. 

El desarrollo de un proyecto de Data es un proceso que si bien es secuencial, es decir, que se desarrolla una etapa detrás de otra, también permite la posibilidad de retroceder una o más etapas, de tal forma que permite retroalimentar las etapas anteriores con información obtenida a posteriori para volver a generar nuevos resultados. Por eso se dice que es un proceso iterativo

Gracias a esta serie de etapas, los data scientist consiguen estructurar de manera eficiente las tareas a realizar, desde el planteamiento del problema hasta poner en marcha un modelo y obtener insights a partir de los datos. 

Si buscamos en la literatura relacionada con Data Science, podemos encontrar otras etapas y definiciones que difieren entre una fuente y otra. Por lo que vamos a simplificar estas etapas en 6 fundamentales, que podríamos desglosar en más subetapas conforme las dimensiones y complejidad del proyecto que se lleve a cabo. 

Comencemos por enumerar las etapas: 

  1. Entendimiento del proyecto 
  2. Recolección de los datos
  3. Procesamiento de los datos
  4. Exploración de los datos
  5. Modelado y evaluación
  6. Puesta en marcha

1. Entendimiento del problema (Business understanding)

Antes de recopilar los datos es importante establecer un problema a solucionar y definirlo claramente, comenzando por comprender cuál es el objetivo principal, sentar las metas y objetivos específicos a alcanzar con la finalidad de saber si es posible solucionarlo a través de los datos o no. 

También es importante examinar el contexto del problema, para delimitar los alcances que tiene. Las siguientes preguntas suelen utilizarse en esta etapa para obtener una mejor comprensión del problema: 

  • ¿Cuál es el problema a resolver? 
  • ¿De qué forma se pueden utilizar los datos?

2. Recolección de los datos (Data Collection)

En esta etapa, el data scientist determina cómo recopilar los datos, identifica dónde se encuentran los datos y cuál es su estructura

Pueden encontrarse en forma de datos estructurados, semiestructurados o no estructurados y estar alojados en un servidor local, en diferentes servidores, en la nube o incluso en papel, como sería el caso de encuestas realizadas en la calle. 

3. Procesamiento de los datos (Data preprocessing)

Es muy raro encontrar bases de datos donde la información se encuentre 100% ordenada y limpia, por ende, el procesamiento de los datos conlleva encontrar valores perdidos, valores no válidos, eliminar patrones duplicados, valores atípicos, revisar las distribuciones de las variables y el desbalance de clases. 

Existen diferentes métodos y algoritmos ya establecidos para cada una de las tareas del procesamiento, por lo que, en principio puede parecer difícil de desarrollar pero solo implica análisis y tiempo. Una vez superada la etapa actual es posible llevar los datos a un estado en el que se puede trabajar con ellos.

4. Exploración de los datos (EDA: Exploratory data analysis)

Con el objetivo de entender los datos desde un enfoque estadístico, hacer el EDA implica aplicar operaciones estadísticas sobre cada variable como la media, mediana, desviación estándar, distribución, aplicar la correlación entre variables para observar su relación, histogramas, diagramas de caja y gráficas que apoyen al mejor entendimiento de los datos. 

En la exploración de los datos se busca responder las siguientes preguntas: 

  • ¿Los datos recopilados son representativos del problema?
  • ¿Qué trabajo adicional requieren los datos para poder entrenar un modelo?
  • ¿Cuál es la mejor manera de visualizar los datos? 

Muchas veces con la visualización de los datos se regresa a la etapa anterior para aplicar técnicas como normalización, eliminación de outliers o estandarización de las variables. 

Desde el inicio hasta este punto, los proyectos de Data Science suelen consumir entre el 70% y 90% del tiempo total del proyecto, y aunque es posible automatizar algunos procesos, el tiempo no suele ser inferior al 50%. La principal razón es la particularidad de cada problema a resolver, dado que casi nunca se va a encontrar una base de datos, la cual permita replicar  el mismo proceso que se aplicó a otra base de datos.

5. Modelado y evaluación (Modeling and evaluation)

El modelado se centra en el desarrollo de modelos que pueden ser de regresión, clasificación, clustering, predicción o recomendación dependiendo el caso. El data scientist evaluará diferentes algoritmos utilizando un conjunto de los datos para el entrenamiento de dichos algoritmos preparándolos para su posterior evaluación. Cabe destacar que no existe un “mejor algoritmo”, ya que el desempeño va a depender de las características de los datos y cómo se adaptan a ellos los algoritmos. 

La evaluación del modelo va de la mano con la construcción del mismo, ya que para mejorar los desempeños es necesario ajustar los parámetros de cada modelo en base a su evaluación. Suelen utilizarse diferentes métricas de evaluación y dependerá de las características del modelo. Algunas métricas son: Matriz de confusión, exactitud, precisión, sensibilidad, SSE (suma de los errores al cuadrado), F1-score, entre otras.

6. Puesta en marcha (Deployment)

Una vez terminado el diseño del modelo, ajustados sus parámetros como consecuencia de la evaluación iterativa, se asegura que el desempeño es bueno. Para ello, se realiza un informe del trabajo desarrollado y una vez aprobado es momento de poner a trabajar el modelo para conseguir el objetivo que se planteó en la primera etapa. 

La puesta en marcha se lleva a cabo por el departamento de IT, debido a que el modelo se monta en una aplicación web o una aplicación de escritorio para que pueda utilizarse. El data scientist no tiene porqué preocuparse de la puesta en marcha, si bien una vez que se encuentra en funcionamiento, podríamos agregar etapas como la retroalimentación y el ajuste de parámetros ya que en un futuro siempre se obtendrán nuevos datos.

A grandes rasgos, podemos resumir lo anterior en los siguientes cuatro pasos:

  1. Encontrar un problema que se pueda resolver con datos.
  2. Recolectar, analizar y preparar los datos.
  3. Construir un modelo que se adecue a los datos y muestre un buen desempeño.
  4. Poner el modelo evaluado en marcha para conseguir los objetivos planteados.

Si a ti también te gustaría desarrollar proyectos de Data Science, no lo pienses más, fórmate con nosotros con el Data Science Bootcamp.

También te puede interesar

Estos post sobre Data Science

Suscríbete a nuestro email

Todavía no hay comentarios

Dinos que estás pensando