Sobre o curso

Este workshop de quatro dias abrange fluxos de trabalho de data science e machine learning em escala usando Apache Spark 2 e outros componentes importantes do ecossistema Hadoop. O workshop enfatiza o uso de métodos de ciência dos dados e machine learning abordando os desafios de negócios do mundo real.

Usando cenários e conjuntos de dados de uma empresa de tecnologia fictícia, os estudantes descobrem insights para o embasamento de decisões críticas de negócios e desenvolver produtos de dados para transformá-lo. O material é apresentado através de uma sequência de breves palestras, demonstrações interativas, exercícios práticos e debates. As demonstrações e exercícios do Apache Spark são conduzidos em Python (com PySpark) e R (com sparklyr) usando o ambiente Cloudera Data Science Workbench (CDSW).

O que espera?

O workshop inclui breves palestras, demonstrações interativas, exercícios práticos e debates, abrangendo temas como:

  • Visão geral da ciência dos dados e do machine learning em escala.
  • Visão geral do ecossistema Hadoop.
  • Trabalhando com dados HDFS e tabelas Hive, utilizando Hue.
  • Introdução ao Cloudera Data Science Workbench.
  • Visão geral do Apache Spark 2
  • Leitura e inserção de dados.
  • Gestão de qualidade de dados.
  • Higienização e transformação de dados.
  • Sumarização e agrupamento de dados.
  • Combinação, divisão e remodelagem de dados.
  • Exploração de dados.
  • Configuração, monitoramento e solução de problemas de aplicações Spark
  • Visão geral de machine learning em Spark MLlib.
  • Extração, transformação e seleção de recursos.
  • Construção e avaliação de modelos de regressão.
  • Construção e avaliação de modelos de clusterização.
  • Criar e avaliar modelos de agrupamento
  • Modelos de validação cruzada e ajuste de hiperparâmetros
  • Construção de pipelines de machine learning.
  • Implementação de modelos de machine learning.

O que vou aprender?

Os participantes adquirem habilidades práticas e experiência prática com ferramentas de ciência da dados, incluindo:

  • Spark, Spark SQL e Spark MLlib
  • PySpark e sparklyr
  • Cloudera Data Science Workbench (CDSW)
  • Hue