Pipeline frágil quebra na madrugada e ninguém entende por quê. Tabela analítica desatualizada virou política operacional. Custo do warehouse triplicou no último trimestre. É nesse ponto que entro.
O DAG do Airflow virou árvore de natal: trezentas tasks, dependência implícita, deploy ninguém faz mais sozinho e qualquer falha cascateia por toda a pipeline. O time já fala em jogar fora e reescrever, mas reescrever tudo é um ano sem entregar valor.
A migração de batch pra streaming foi vendida pro board, mas o time nunca operou Kafka, Kinesis ou CDC em produção. O risco de subir e voltar é maior do que o de não migrar, e a decisão tá presa há meses.
O data warehouse cresceu sem governança: schemas duplicados, modelos órfãos, custo de query explodindo, ninguém com ownership claro. O CFO já pediu corte de gasto, e o time não sabe por onde começar sem quebrar relatório que executivo abre todo dia.
O produto é multi-tenant operacional, e o isolamento de dados precisa ser auditável pra LGPD. A solução atual mistura tenants em tabelas comuns e ninguém quer assinar que tá seguro.
Pipelines auditáveis, observáveis e mais baratas do que tá hoje
Auditoria do que existe: DAGs, dependências, custo por job, qualidade de dado por tabela, lineage. Saio com plano priorizado de remediação, com estimativa de esforço e impacto.
Quebra de DAGs monolíticas em pipelines coesos, padrões de TaskGroup, idempotência, retries inteligentes, sensors enxutos. Trabalho no MWAA ou Composer, ou em deploy próprio.
CDC do transacional pra data lake, eventos via Kafka ou Kinesis, processamento em Lambda ou Flink, materialização em camada silver com latência controlada.
Estratégia de isolamento (row-level, schema-per-tenant, database-per-tenant), auditoria pra LGPD, controle de custo por tenant e modelo de cobrança defensável.
Métricas de qualidade (completude, distribuição, freshness), alertas em queda de volume e drift, lineage automatizado, integração com Datadog ou ferramentas open-source.
Code review de pipelines reais, pareamento em decisões de modelagem, workshops de Airflow, dbt, ingestão em tempo real e design de tabela analítica.
Padrões que aparecem com mais frequência na fila
O primeiro passo é uma conversa de 30 minutos sem custo. Entendo o problema concreto, a stack atual, o time e a urgência. No fim digo se faz sentido seguir comigo ou se você precisa de outro perfil.
Se faz sentido, mando proposta com escopo, prazo e valor em até 48 horas. Engajamento por projeto fechado entre duas e doze semanas, ou pacote mensal de horas pra acompanhamento contínuo.
Trabalho remoto, no repositório e ferramentas do cliente. Entrega com testes, documentação técnica e handoff pro time interno, porque o objetivo é o cliente sair menos dependente e não mais.
As que mais aparecem no primeiro contato
Airflow continua sólido pra orquestração de pipelines com lógica imperativa e integrações heterogêneas. dbt brilha pra transformação SQL dentro do warehouse, é complementar e não substituto. Dagster é alternativa viável quando o time prioriza lineage e tipagem fortes, mas a troca raramente justifica o custo se a dor real é DAG mal estruturada. A escolha vem do problema, não do hype.
Em camadas. Primeiro identifica o conjunto pequeno de tabelas onde latência batch dói no produto. Pra esse subconjunto, monta uma trilha paralela (CDC do banco transacional ou evento na origem) que alimenta uma camada silver em tempo real, mantendo o batch atual rodando como fallback. A migração total acontece quando a trilha nova provou confiabilidade, não no dia da decisão.
Sim, na maior parte dos casos. Estratégia depende do perfil de carga: row-level security pra tenants leves, schema-per-tenant pra cargas médias, e database-per-tenant só quando há requisito de isolamento físico (LGPD/HIPAA) ou tenants gigantes que dominam recursos. O erro comum é começar database-per-tenant e descobrir que a operação não escala.
Pipeline ruim mas funcional, com observabilidade básica, sai em duas a quatro semanas. Pipeline que quebra silenciosamente toda madrugada exige primeiro instrumentar (logging, métricas de qualidade, alertas) antes de refatorar, e isso adiciona uma a duas semanas. Refazer arquitetura inteira é projeto de dois a quatro meses, mas raramente é o melhor caminho.
Profundidade maior em AWS (MWAA, Glue, Redshift, Aurora, Kinesis, S3, EMR). Também atendo projetos em GCP (BigQuery, Dataflow, Cloud Composer) e Azure (Synapse, Data Factory), mas com curva de adaptação inicial menor que em AWS. Pra projetos multicloud, deixo isso explícito na proposta.
30 minutos sem custo. Saio com leitura honesta do que tá funcionando, do que tá quebrado e do que vale priorizar.
Agendar Diagnóstico