Comece Agora

Pipelines de ETL e Machine Learning com Apache Spark

Entrar no universo do Apache Spark é embarcar em uma jornada rumo ao coração das operações de dados mais avançadas de hoje. Este curso leva você a essa imersão, combinando teoria com uma abordagem prática centrada em sete projetos sensacionais.
Formato

Curso Online

Data de Início

Imediato

Carga Horária

84 h/a

Prazo de Acesso

24 meses

Investimento

O pagamento pode ser feito à vista ou em até 12x sem juros no cartão de crédito

Pré-Requisitos

Recomendamos ter concluído o Curso Gratuito Introdução à Ciência de Dados


Descrição do Curso

Este curso fornece uma compreensão prática e aplicada, permitindo aos alunos não apenas aprender os conceitos teóricos, mas também ganhar experiência prática na construção e otimização de pipelines de dados robustos e escaláveis.

Iniciamos com a arte da exploração de dados e operações SQL com Spark SQL, estabelecendo uma base sólida para as atividades subsequentes.

A partir daí, aprofundamos na engenharia de dados, desvendando o desenvolvimento de pipelines ETL robustos, aptos para execução em clusters Spark, e abordando desafios de dados em tempo real através de pipelines de coleta, transformação e análise.

E, como Inteligência Artificial já é uma realidade, o projeto que integra Modelos de Linguagem (LLMs) usando LangChain e Apache Spark, traz a potência da análise textual ao contexto do Spark.

Mas o curso não seria completo sem abordar o lado operacional: o deploy e versionamento de modelos de Machine Learning, utilizando a combinação poderosa do Spark com Databricks. Trazemos, também, uma perspectiva multi-linguagem, com a otimização de aplicações Spark nas linguagens Python, Scala e R.

Concluímos nossa jornada introduzindo uma visão inovadora e atual da gestão de dados: a construção de um Data Lakehouse Low-Code utilizando Apache Spark e Delta Lake.



Este curso é uma jornada que irá abrir muitas portas no crescente campo da ciência e arquitetura de dados e aprendizado de máquina, proporcionando uma base sólida sobre a qual construir uma carreira promissora.

Confira o Logbook das principais atividades práticas do curso:

  • Projeto 1 - Pipeline de Exploração de Dados e Operações SQL com Spark SQL
  • Projeto 2 - Banco de Dados, Machine Learning e Pipeline ETL em Cluster Spark Para Detectar Anomalias em Transações Financeiras
  • Projeto 3 - Pipeline de Machine Learning em Cluster Spark Para Previsão de Churn - Treinamento e Deploy 
  • Projeto 4 - Pipeline de Pré-Processamento, Validação Cruzada e Otimização em Machine Learning
  • Projeto 5 - Otimização de Pipeline ETL e Machine Learning com PySpark
  • Projeto 6 - Pipeline de Coleta, Transformação e Análise de Dados em Tempo Real
  • Projeto 7 - Deploy e Versionamento de Modelos de Machine Learning com Spark e Databricks
  • Projeto 8 - Low-Code Data Lakehouse com Apache Spark e Delta Lake


Ao final deste curso, você não apenas entenderá, mas também saberá como aplicar, de forma prática, as principais funcionalidades do Apache Spark no mundo real.

O que está esperando? Comece agora mesmo!

Pronto(a) para começar sua jornada como Arquiteto de Dados?