PySpark e Apache Kafka Para Processamento de Dados em Batch e Streaming
Domine PySpark e Apache Kafka para limpar, transformar e transmitir grandes volumes de dados em tempo real e em lotes.
Formato
Online
Data de Início
Imediato
Carga Horária
90 h/a
Prazo de Acesso
24 meses
Parcelado
12x no cartão
Pré-requisitos
Descrição do Curso
Você deseja se tornar um profissional em alta demanda, desenvolver habilidades em duas das principais tecnologias no cenário atual da engenharia de dados (Spark e Kafka), trabalhar em laboratórios práticos no seu próprio computador e ainda compreender quando e como usar dados em tempo real e em lote?
Então este curso é para você!
Este curso oferece uma jornada incrível, desde a preparação do ambiente de trabalho com PySpark, passando por técnicas avançadas de ETL utilizando Python, até a integração e processamento de dados em tempo real com o Apache Kafka. Ao longo dos módulos, os alunos serão expostos a conceitos essenciais do PySpark para processamento distribuído de dados, assim como a práticas e técnicas avançadas para limpeza e processamento de dados usando PySpark com dados em lote e em tempo real.
Com a crescente demanda por processamento em tempo real e análises avançadas, as habilidades com PySpark e Kafka tornaram-se requisitos básicos para os Engenheiros de Dados modernos.
O Apache Kafka, particularmente, está revolucionando a maneira como as empresas lidam com dados em tempo real, permitindo a integração de diversas fontes de dados e garantindo entrega com baixa latência.
Da mesma forma, o PySpark, uma api do Apache Spark para Python, facilita o processamento distribuído, tornando possível analisar grandes volumes de dados de forma eficiente.
E o que acontece quando unimos as duas tecnologias? Uma plataforma completa de processamento de dados, open-source.
O curso está repleto de laboratórios práticos, como a criação de pipelines ETL, otimização de processamento em clusters Spark e simulações de erros em clusters Kafka, garantindo que os alunos não apenas entendam a teoria, mas também sejam capazes de aplicar o conhecimento adquirido em cenários do mundo real.
Logbook das Principais Atividades Práticas
- Projeto 1 - Pipeline PySpark Para Extrair, Transformar e Carregar Arquivos JSON em Banco de Dados
- Projeto 2 - 50 Scripts de Otimização de Processamento e Análise de Dados em Cluster Spark
- Projeto 3 - Pipeline de Limpeza e Transformação Para Aplicações de IA com PySpark SQL
- Projeto 4 - Processamento e Análise de Dados em Tempo Real com PySpark Streaming
- Projeto 5 - Extração, Processamento e Armazenamento de Dados em Tempo Real com Kafka e Spark Streaming
- Projeto 6 - Monitoramento de Criptomoedas em Tempo Real com Kafka, MongoDB e Streamlit
- Projeto 7 - Real-Time ETL Stack com Airflow, Kafka, PySpark e Cassandra
- Projeto 8 - Simulação de Erros e Recuperação de Falhas em Cluster Kafka