La ciencia de datos se define por la utilización de los datos producidos y recolectados por organizaciones para extraer informaciones relevantes a una organización y auxiliar en la toma de decisiones. La recopilación de datos producidos por personas y sensores ha crecido exponencialmente. De esta forma, la gran cantidad de datos a ser almacenados, recuperados y analizados se ha convertido en un desafío complejo. Este evento se llama Big Data y con él se relacionan, además de los desafíos, las herramientas que posibilitan superarlos.

Este es el tema de la actualidad. Se ha discutido dentro de las áreas de finanzas, telecomunicaciones, seguridad, salud, jurídica, servicio público, logística y muchas otras. El motivo de toda esta popularidad es el aumento de la generación de nuevos datos, el acceso a herramientas cada vez más sofisticadas y de uso libre (open source) y la ganancia financiera que se puede obtener haciendo uso de estas informaciones. Muchas empresas han dirigido sus ojos a esta novedad, pero pocas saben qué hacer.

Aunque el término ciencia de datos se utiliza en muchas situaciones diferentes, esta área es bastante extensa y no puede ser fácilmente resumida. No existe una formación única para convertirse en un científico de datos y no va a existir. Actualmente los profesionales que ocupan estos cargos tienen formación en Ciencias de la Computación, Análisis de Sistemas, Matemáticas, Física, Estadística y la lista puede continuar hasta donde haya interés. Por otro lado, no existe un solo curso que te dé toda la información  necesaria para actuar como un científico de datos. Es necesario que se busque conocimiento en muchas fuentes diferentes.

Por lo tanto, si no hay formación específica, ¿qué define a un científico de datos? La respuesta es simple: el científico de datos es el profesional que hace ciencia con los datos, o sea, extrae el conocimiento proveniente de informaciones digitales (o digitalizadas). Siendo así, es un poco más fácil entender lo que hace un científico de datos. En pocas palabras, él entiende el sistema que originó los datos y utiliza herramientas para manipularlo y extraer conocimiento de esta información.

Esta definición explica el origen del famoso diagrama de las áreas de conocimiento del científico de datos y por qué las aplicaciones están en todas partes. El conocimiento específico puede pertenecer a diversas áreas, pues hoy en día prácticamente todo produce información o puede ser representado digitalmente. Las herramientas, por otro lado, se están volviendo maduras y accesibles.

Figura 1 - Diagrama de las áreas de conocimiento del científico de datos

 

Comprensión del origen de la información

Esta suele ser la parte más complicada para el científico, pues es la cuestión que más puede variar de un proyecto a otro. Difícilmente un científico tendrá dominio completo de un área específica, ya que su habilidad principal es entender todos los lados en que actuará. que manejará. Por lo tanto, una de las tareas más importantes es la comunicación con cada parte del proyecto.

Hoy en día el flujo convencional de trabajo convierte al científico de datos en una especie de consultor. El escenario encontrado por él es de procesos ya establecidos y asuntos bien conocidos por los  especialistas del área. Por lo tanto, son necesarias varias conversaciones con expertos para comprender lo que ya está en funcionamiento y encontrar el espacio para producir la innovación.

Esta posición dentro del equipo requiere un aprendizaje continuo tanto en la parte de herramientas, que se actualiza rápidamente, como en la parte específica, que termina cambiando de proyecto a proyecto. Esto demuestra que el perfil del científico de datos de hoy es muy parecido al de un investigador académico en la búsqueda de soluciones.

Dependiendo del origen de la información, es necesario que el científico procure tener un conocimiento más profundo sobre en el asunto en que va a trabajar. Las ideas que él podría generar a la hora de sugerir las innovaciones dependerán mucho del nivel de conocimiento sobre la base de datos que está trabajando.

Lo que interesa aquí es levantar qué informaciones  están disponibles y pasibles de ser utilizadas Después de esto, es necesario entender cómo las informaciones se relacionan entre sí. Las primeras ideas pueden comenzar a surgir en esta etapa. En este momento, el científico ya debe estar seguro de lo que puede ser feo, pero la confirmación de esto solo vendrá en la siguiente etapa.

Exploración 

La etapa de exploración?? suele ser conturbada. No por la complejidad de las tareas en sí, sino por la dificultad en preparar las condiciones ideales para ejecutarlas. La preparación del ambiente es de primordial importancia cuando se trata de Big Data. La manipulación de estos datos no es simple. Dependiendo de lo que se quiere hacer es bueno invertir  tiempo (y dinero, a veces) para preparar un ambiente apropiado y organizar los datos de la mejor manera posible antes de iniciar el trabajo de exploración.

Otra preocupación que se debe tener es con la calidad de los datos. Es un hecho que ya estamos en la "era de los datos", pero esto no significa que el simple acceso a ellos proporcionará ganancias significativas, por dos razones: no todo dato tiene buena calidad y no cualquier información dará la respuesta que se espera. Este es uno de los objetivos de la etapa de exploración: observar de forma minuciosa la información que está disponible. En este momento, el científico podrá formular sus hipótesis con más fundamento, dado que ya es posible tener una noción de qué información se puede obtener con los datos que se están analizando.

En esta etapa las habilidades que se destacan son de carácter estadístico. Es indispensable entender la distribución del conjunto de datos. Para ello será necesario formular e interpretar histogramas, boxplots, correlación entre variables, análisis factorial. Y para hacer este análisis, es preciso conocer herramientas de manipulación de bases de datos y, al menos, un lenguaje de programación. El lenguaje más utilizado en esta etapa es el R debido a la gran cantidad de bibliotecas estadísticas disponibles.

Después de tener una comprensión clara de los datos, es el momento de proponer los primeros modelos. La gran novedad surge en esta etapa (o fase), pues aquí se puede hacer uso de la inteligencia artificial. Es posible emplear técnicas de optimización, clasificación, regresión, agrupamiento, recomendación y búsqueda, entre otras. Los modelos matemáticos y estadísticos también son aplicables a muchos problemas. Las áreas de modelado modelado de riesgo de crédito son muy frecuentes en las instituciones financieras, por ejemplo, y pueden considerarse como los inicios de la ciencia de datos. El diferencial de las técnicas de inteligencia artificial es la posibilidad de ser aplicada en prácticamente todos los tipos de datos y en todas las áreas del conocimiento.

En este momento también vale la pena discutir cuestiones de arquitectura de la solución, o sea, definir el flujo de la información y qué herramientas deben ser utilizadas. En esta discusión es importante consultar a ingenieros y arquitectos de datos.

Implementación de modelos

Con los modelos propuestos, llega la hora de poner en práctica las principales habilidades del científico de datos: hacer predicciones, reconocer patrones, encontrar caminos, optimizar funciones, etc. Encontrar un buen modelo puede requerir bastante esfuerzo. Es necesario experimentar con modelos diferentes y probar varias combinaciones de parámetros. No hay fórmula para esto, por lo que valdrá mucho la experiencia. También vale la pena explorar los artículos publicados y las competencias de aprendizaje de máquina para ver cuáles son las soluciones más frecuentes. En estas investigaciones es posible que se pueda encontrar algún trabajo muy cercano al suyo y así, ahorrar varios pasos en la experimentación.

Los requisitos de esta etapa son el dominio de las técnicas que serán probadas y conocimientos en programación (nuevamente el lenguaje R puede ser utilizado, pero otro bastante común es el Python).

Junto con los modelos a ser probados, es necesario tener una buena estrategia de evaluación del error. Difícilmente un modelo va a acertar el 100% de las veces, por lo que es importante saber si el error es adecuado o no. Tampoco existe una única evaluación más apropiada, esta dependerá del problema que se está solucionando. El error aceptable también depende de quién va a utilizar el modelo. En algunos casos, como los modelos utilizados en  autos autónomos, el error es prácticamente inaceptable, por otro lado, si estamos detectando spam en un buzón de correo electrónico, una pequeña tasa o tasa de error es aceptable.

La evaluación del resultado final también ocurre en esta fase. Además de la evaluación del error, es interesante analizar si el uso del modelo realmente traerá beneficios al propósito principal. También es posible analizar si los costos para obtener un mejor resultado son justificables. Por ejemplo, una solución razonable y barata, puede ser más ventajosa que una solución excelente y cara. Para tomar estas decisiones es recomendable aplicar algunas pruebas de hipótesis, comparación entre las medias junto con la evaluación del costo.

Construcción de la solución final (no tiene el tamaño del original ni estaba en negritas)

Finalmente, teniendo la solución planificada, y el modelo desarrollado y entrenado, es hora de incorporar todo el análisis en un producto final. En este momento la actuación del científico puede disminuir y el foco se orienta hacia programadores e ingenieros de datos. El papel del científico en esta etapa es instruir adecuadamente a quien va a construir el producto.

Muchos científicos están mejor formados en programación y son excelentes programadores, por lo que están aptos para construir por sí solos la solución final. Sin embargo, creo que mantenerse al día en todas las herramientas de programación puede ocupar gran parte del tiempo, dificultando el crecimiento del profesional en el entendimiento de las técnicas de análisis de datos.

Continuidad del proyecto

Estos proyectos, a diferencia de los tradicionales softwares, requieren una actualización frecuente. Uno de los motivos es que es prácticamente imposible alcanzar un modelo perfecto. Además, al igual que el aprendizaje humano, el aprendizaje de máquina también es continuo. Por lo tanto, la actuación de los científicos no tiene un final determinado. La ciencia de datos vino para quedarse.