PySpark e Apache Kafka Para Processamento de Dados em Batch e Streaming

Domine PySpark e Apache Kafka para limpar, transformar e transmitir grandes volumes de dados em tempo real e em lotes.

Formato

Online

Data de Início

Imediato

Carga Horária

90 h/a

Prazo de Acesso

24 meses

Parcelado

12x no cartão

Pré-requisitos
Recomendamos ter concluído o Curso Gratuito de Linguagem Python aqui na DSA.

Descrição do Curso

Você deseja se tornar um profissional em alta demanda, desenvolver habilidades em duas das principais tecnologias no cenário atual da engenharia de dados (Spark e Kafka), trabalhar em laboratórios práticos no seu próprio computador e ainda compreender quando e como usar dados em tempo real e em lote?

Então este curso é para você!

Este curso oferece uma jornada incrível, desde a preparação do ambiente de trabalho com PySpark, passando por técnicas avançadas de ETL utilizando Python, até a integração e processamento de dados em tempo real com o Apache Kafka. Ao longo dos módulos, os alunos serão expostos a conceitos essenciais do PySpark para processamento distribuído de dados, assim como a práticas e técnicas avançadas para limpeza e processamento de dados usando PySpark com dados em lote e em tempo real.

Com a crescente demanda por processamento em tempo real e análises avançadas, as habilidades com PySpark e Kafka tornaram-se requisitos básicos para os Engenheiros de Dados modernos.

O Apache Kafka, particularmente, está revolucionando a maneira como as empresas lidam com dados em tempo real, permitindo a integração de diversas fontes de dados e garantindo entrega com baixa latência.

Da mesma forma, o PySpark, uma api do Apache Spark para Python, facilita o processamento distribuído, tornando possível analisar grandes volumes de dados de forma eficiente.

E o que acontece quando unimos as duas tecnologias? Uma plataforma completa de processamento de dados, open-source.

O curso está repleto de laboratórios práticos, como a criação de pipelines ETL, otimização de processamento em clusters Spark e simulações de erros em clusters Kafka, garantindo que os alunos não apenas entendam a teoria, mas também sejam capazes de aplicar o conhecimento adquirido em cenários do mundo real.

Logbook das Principais Atividades Práticas

  • Projeto 1 - Pipeline PySpark Para Extrair, Transformar e Carregar Arquivos JSON em Banco de Dados
  • Projeto 2 - 50 Scripts de Otimização de Processamento e Análise de Dados em Cluster Spark
  • Projeto 3 - Pipeline de Limpeza e Transformação Para Aplicações de IA com PySpark SQL
  • Projeto 4 - Processamento e Análise de Dados em Tempo Real com PySpark Streaming
  • Projeto 5 - Extração, Processamento e Armazenamento de Dados em Tempo Real com Kafka e Spark Streaming
  • Projeto 6 - Monitoramento de Criptomoedas em Tempo Real com Kafka, MongoDB e Streamlit
  • Projeto 7 - Real-Time ETL Stack com Airflow, Kafka, PySpark e Cassandra
  • Projeto 8 - Simulação de Erros e Recuperação de Falhas em Cluster Kafka

Ementa do Curso

Pronto(a) para Começar sua jornada como Engenheiro de Dados?