Pipelines Para LLMs com ETL e Orquestração de Dados Não Estruturados

Este curso é a ponte entre a Engenharia de Dados e a Inteligência Artificial, focado em resolver o maior gargalo dos projetos de IA Generativa: a qualidade e o processamento de dados não estruturados. Fugindo do tradicional SQL e tabelas, você aprenderá a arquitetar, orquestrar e monitorar pipelines complexos que transformam documentos brutos (PDFs, HTML, áudio) em vetores de alta precisão, garantindo que sistemas de RAG e Agentes de IA operem sem alucinações e com máxima eficiência em produção.

Formato

Online

Data de Início

Imediato

Carga Horária

96 h/a

Prazo de Acesso

24 meses

Parcelado

12x no cartão

Pré-requisitos
Recomendamos ter concluído o Curso Gratuito de Python e o Curso de Modelos de Embeddings aqui na DSA.

Descrição do Curso

A maioria dos projetos de Inteligência Artificial falha não por causa do modelo escolhido, mas pela qualidade dos dados que o alimentam. As empresas enfrentam um problema real e caro: como transformar terabytes de PDFs contratuais, manuais técnicos despadronizados e históricos de logs em conhecimento útil e acessível para a IA? O mercado está desesperado por Engenheiros capazes de construir a infraestrutura que torna a IA viável.


Este curso foi elaborado para preencher essa lacuna crítica. Aqui, você deixará de ser apenas um "transportador de tabelas SQL" para se tornar um arquiteto de conhecimento. Você aprenderá a dominar o ciclo de vida completo do dado não estruturado: da ingestão complexa com OCR e Visão Computacional, passando por estratégias avançadas de chunking semântico e sanitização de PII, até a orquestração robusta de pipelines que alimentam bancos vetoriais em escala.


Esqueça os scripts manuais e frágeis. Neste treinamento, trazemos a engenharia de software para o mundo da IA. Você utilizará ferramentas modernas de orquestração (como Prefect e Databricks Workflows), aplicará conceitos de Vibe Coding para acelerar o desenvolvimento e implementará camadas de observabilidade (DataAIOps) para garantir que seus pipelines não quebrem silenciosamente. Ensinaremos não apenas a usar ferramentas, mas a pensar arquiteturalmente sobre custos, latência e governança.


Se você quer se posicionar como um AI Data Engineer de elite, capaz de construir a "fábrica de dados" que sustenta aplicações de RAG e Agentes Autônomos em grandes corporações, este é o seu próximo passo. Domine a habilidade mais subestimada e mais valiosa da era da IA: transformar dados brutos em inteligência confiável.

Projetos

Este curso une teoria e prática na medida certa com atividades práticas que levam você para o dia a dia do Engenheiro de Dados orientado a IA.

Confira o Logbook das principais atividades práticas do curso:


  • Estudo de Caso - Vibe Coding Para Gerador de ETL Automático
  • Projeto 1 - Pipeline de Sanitização e Anonimização de Dados Não Estruturados
  • Projeto 2 - Construindo Um "Universal Document Loader" Para ETL de Dados Não Estruturados
  • Projeto 3 - App de Agentic RAG Para Comparar Estratégias de Chunking (Fixed, Semantic e Hierarchical)
  • Projeto 4 - Enriquecimento de Contexto em App de Recursos Humanos
  • Projeto 5 - Pipeline Autônomo Para Orquestrar Workflow de App com Agentes de IA
  • Projeto 6 - Dashboard de Observabilidade do Pipeline de RAG


Ementa do Curso

Pronto(a) para começar sua jornada de aprendizado profissional?