PySpark e Apache Kafka Para Processamento de Dados em Batch e Streaming

Domine PySpark e Apache Kafka para limpar, transformar e transmitir grandes volumes de dados em tempo real e em lotes.

Formato

Online

Data de Início

Imediato

Carga Horária

90 h/a

Prazo de Acesso

24 meses

Parcelado

12x no cartão

Pré-requisitos

Descrição do Curso

Você deseja se tornar um profissional em alta demanda, desenvolver habilidades em duas das principais tecnologias no cenário atual da engenharia de dados (Spark e Kafka), trabalhar em laboratórios práticos no seu próprio computador e ainda compreender quando e como usar dados em tempo real e em lote?

Então este curso é para você!

Este curso oferece uma jornada incrível, desde a preparação do ambiente de trabalho com PySpark, passando por técnicas avançadas de ETL utilizando Python, até a integração e processamento de dados em tempo real com o Apache Kafka. Ao longo dos módulos, os alunos serão expostos a conceitos essenciais do PySpark para processamento distribuído de dados, assim como a práticas e técnicas avançadas para limpeza e processamento de dados usando PySpark com dados em lote e em tempo real.

Com a crescente demanda por processamento em tempo real e análises avançadas, as habilidades com PySpark e Kafka tornaram-se requisitos básicos para os Engenheiros de Dados modernos.

O Apache Kafka, particularmente, está revolucionando a maneira como as empresas lidam com dados em tempo real, permitindo a integração de diversas fontes de dados e garantindo entrega com baixa latência.

Da mesma forma, o PySpark, uma api do Apache Spark para Python, facilita o processamento distribuído, tornando possível analisar grandes volumes de dados de forma eficiente.

E o que acontece quando unimos as duas tecnologias? Uma plataforma completa de processamento de dados, open-source.

O curso está repleto de laboratórios práticos, como a criação de pipelines ETL, otimização de processamento em clusters Spark e simulações de erros em clusters Kafka, garantindo que os alunos não apenas entendam a teoria, mas também sejam capazes de aplicar o conhecimento adquirido em cenários do mundo real.

Logbook das Principais Atividades Práticas

Projeto 1 - Pipeline PySpark Para Extrair, Transformar e Carregar Arquivos JSON em Banco de Dados
Projeto 2 - 50 Scripts de Otimização de Processamento e Análise de Dados em Cluster Spark
Projeto 3 - Pipeline de Limpeza e Transformação Para Aplicações de IA com PySpark SQL
Projeto 4 - Processamento e Análise de Dados em Tempo Real com PySpark Streaming
Projeto 5 - Extração, Processamento e Armazenamento de Dados em Tempo Real com Kafka e Spark Streaming
Projeto 6 - Monitoramento de Criptomoedas em Tempo Real com Kafka, MongoDB e Streamlit
Projeto 7 - Real-Time ETL Stack com Airflow, Kafka, PySpark e Cassandra
Projeto 8 - Simulação de Erros e Recuperação de Falhas em Multi-Node Kafka Cluster Para Gestão de Vendas em Tempo Real

Ementa do Curso

Pronto(a) para Começar sua jornada como Engenheiro de Dados?

Somos a maior plataforma de ensino online de Ciência de Dados, Inteligência Artificial, Big Data, Arquitetura de Dados e Analytics da América Latina.

Nossa missão é oferecer treinamentos que provoquem experiências de aprendizagem autênticas, abrangentes, contínuas, criativas e desafiadoras, entregando aprendizagem futura, agora.

Empresa

Termos

Destaques

Cursos

Data Science Academy