Pipelines de ETL e Machine Learning com Apache Spark

Domine a criação e implementação de Pipelines de ETL e Machine Learning com Apache Spark e eleve suas habilidades em dados para o próximo nível!

Formato

Online

Data de Início

Imediato

Carga Horária

84 h/a

Prazo de Acesso

24 meses

Parcelado

12x no cartão

Pré-requisitos
Recomendamos ter concluído o Curso Gratuito Fundamentos de Data Science e IA

Descrição do Curso

Este curso fornece uma compreensão prática e aplicada, permitindo aos alunos não apenas aprender os conceitos teóricos, mas também ganhar experiência prática na construção e otimização de pipelines de dados robustos e escaláveis.


Iniciamos com a arte da exploração de dados e operações SQL com Spark SQL, estabelecendo uma base sólida para as atividades subsequentes.

A partir daí, aprofundamos na engenharia de dados, desvendando o desenvolvimento de pipelines ETL robustos, aptos para execução em clusters Spark, e abordando desafios de dados em tempo real através de pipelines de coleta, transformação e análise.

E, como Inteligência Artificial já é uma realidade, o projeto que integra Modelos de Linguagem (LLMs) usando LangChain e Apache Spark, traz a potência da análise textual ao contexto do Spark.

Mas o curso não seria completo sem abordar o lado operacional: o deploy e inferência de modelos de Machine Learning, utilizando a combinação poderosa do MLflow com Databricks. Trazemos ainda a construção de Data Lakehouse com Spark e Delta Lake e a aplicação prática do conceito de Time Travel no processamento de dados em ambientes distribuídos.

Logbook das Principais Atividades Práticas

  • Projeto 1 - Pipeline de Exploração de Dados e Operações SQL com Spark SQL
  • Projeto 2 - Banco de Dados, Machine Learning e Pipeline ETL em Cluster Spark Para Detectar Anomalias em Transações Financeiras
  • Projeto 3 - Pipeline de Machine Learning em Cluster Spark Para Previsão de Churn - Treinamento e Deploy
  •  Projeto 4 - Pipeline de Pré-Processamento, Validação Cruzada e Otimização em Machine Learning
  • Projeto 5 - Otimização de Pipeline ETL e Machine Learning com PySpark
  • Projeto 6 - Pipeline de Coleta, Transformação e Modelagem Preditiva em Tempo Real com Spark Streaming e TensorFlow
  • Projeto 7 - Data Lakehouse Time Travel com Apache Spark e Delta Lake
  • Projeto 8 - Deploy e Inferência de Modelos de Machine Learning com MLflow e Databricks

Ementa do Curso

Pronto(a) para Começar sua jornada como Arquiteto de Dados?