🤖
Meu Primeiro Agente de IA
Do Conceito à Produção
Prof: Raphael Popiolek
RAG
Tokens
Embeddings
Agentes
2026 · apresentaia.trecofantastico.com.br
🔄 ChatGPT vs Agente de IA
🏠 ChatGPT
- Conhecimento genérico
- Dados até data de corte
- Não conhece SUA empresa
🤖 Agente de IA
- Conhecimento específico
- Dados sempre atualizados
- Treinado com SEUS dados
💡 Um Agente de IA personalizado responde com o contexto do seu negócio, não com informações genéricas da internet.
⚠️ O Problema da Alucinação
Alucinação: Quando o modelo gera informações que parecem corretas mas são inventadas ou imprecisas.
❓ Por que acontece?
- Falta de contexto específico
- Dados de treino desatualizados
- Modelo "completa" informação
✅ Como RAG resolve?
- Busca em base de dados real
- Contexto atualizado
- Redução de até 18% nas alucinações
🪙 Tokens: A Moeda da IA
Token = menor unidade de texto que o modelo processa (palavra, parte de palavra ou pontuação).
📝 Exemplo
"Inteligencia Artificial" = 3–4 tokens
"IA" = 1 token
"." = 1 token
💰 Por que importa?
- Cobrança por token
- Limite de contexto
- ~1000 tokens = 750 palavras
🧮 Quanto mais tokens você envia por requisição, maior o custo. Otimizar tokens = economizar dinheiro.
✂️ Chunks: Como a IA Divide seu Conteúdo
Chunk = pedaço do documento original, dividido de forma inteligente.
📏 chunk_size
Tamanho máximo de cada pedaço. Ex: 512 tokens. Muito grande = perde precisão. Muito pequeno = perde contexto.
🔁 chunk_overlap
Tokens repetidos entre chunks adjacentes. Ex: 50 tokens de sobreposição para não cortar o raciocínio no meio.
🔢 Embeddings: Texto em Números
Embedding = vetor numérico que captura o significado semântico do texto.
📍 Analogia: CEP Semântico
CEPs próximos = endereços próximos
Embeddings similares = significados similares
"Cachorro" → [0.2, 0.8, ...]
"Cão" → [0.21, 0.79, ...]
Muito próximos! ✓
🏭 Provedores
- OpenAI — text-embedding-3
- GPT4All — Local, gratuito
- Cohere — embed-v3
Texto → Embedding → Vector DB → Busca semântica
🔀 Fluxo Completo do Agente
Indexação (uma vez)
Consulta (cada pergunta)
⚡ A indexação acontece uma única vez. A consulta repete a cada pergunta do usuário, sendo ultra-rápida pois o trabalho pesado já foi feito.
✨ O que é RAG?
RAG = Retrieval-Augmented Generation. Combina busca + geração para respostas precisas.
🔍
Retrieval
Encontra os documentos mais relevantes na sua base de conhecimento usando busca semântica por embeddings.
✍️
Generation
LLM recebe os documentos encontrados como contexto e gera uma resposta precisa e fundamentada.
❓ Pergunta
→
🔍 Retrieval
+
📚 Contexto
→
✅ Resposta
🗂️ Tipos de RAG
| Tipo |
Descrição |
Complexidade |
Uso |
| Naive |
Busca simples + geração |
BAIXA |
MVPs |
| Hybrid |
Semântico + keyword |
MÉDIA |
Docs técnicos |
| Re-Ranking |
Reordena resultados |
MÉDIA |
Alta precisão |
| GraphRAG |
Grafos de conhecimento |
ALTA |
Relações |
| Agentic |
Decisões autônomas |
ALTA |
Chatbots |
| Self-RAG |
Auto-avaliação |
ALTA |
Crítico |
⚡ Naive RAG (Básico)
Query
→
RetrieveTop-K
→
Generate
✓ Pros
- Simples
- Rápido de começar
- Baixo custo
✗ Contras
- Menos preciso
- Sem reordenação
- Limitado
🚀 Ideal para começar. Se funciona para o seu caso de uso — ótimo. Só adicione complexidade se precisar.
🔀 Hybrid RAG
Combina busca semântica (embeddings) + palavras-chave (BM25).
Query
→
DenseSemântico
+
SparseBM25
→
Merge
✅ Vantagem
Captura significado E termos exatos (códigos, siglas). O melhor dos dois mundos.
🎯 Quando usar
Docs técnicos, manuais, bases com códigos, siglas ou terminologia específica.
↕️ Re-Ranking
Re-Ranking = reordena resultados usando modelo especializado para priorizar os mais relevantes.
RetrieveTop 50
→
Re-Rank
→
Top 5
→
LLM
📈 Trade-off
Adiciona latência, mas melhora MUITO a qualidade das respostas. Vale o custo em casos críticos.
🛠️ Ferramentas
Cohere Rerank, BGE Reranker, Jina Reranker. Fácil de plugar em qualquer pipeline RAG.
🕸️ GraphRAG (Microsoft)
Usa grafos de conhecimento para entender relações entre entidades.
77.6%
Melhoria MRR
(LinkedIn)
🎯 Quando usar: Análises globais, perguntas cross-document, relatórios, BI.
🤖 Agentic RAG
RAG com decisão autônoma. Decide quando buscar, o que buscar, múltiplas buscas.
Query
→
AgentDecide
↔
Tools
→
Resposta
⚙️ Capacidades
- Múltiplas buscas
- Auto-correção
- Usa ferramentas externas
🎯 Quando usar
- Chatbots complexos
- Pesquisa
- Fluxos multi-etapa
🔄 Self-RAG / Corrective RAG
Self-RAG = avalia próprias respostas e decide se precisa buscar mais.
Generate
→
EvaluateCorreto?
→
Não?Busca mais
↺
✅ Benefícios
- Detecta quando não sabe
- Reduz alucinações
🎯 Quando usar
- Saúde, jurídico
- Alta precisão necessária
🖼️ Multimodal RAG
Processa e busca em texto + imagens + áudio + vídeo.
▶️ Case: Vimeo
Usuários perguntam "Do que trata o vídeo?" e o sistema retorna momentos específicos com timestamps precisos — sem assistir o vídeo inteiro.
🚫 Quando RAG NÃO Funciona
📅
Dados velhos
Info desatualizada ou contraditória na base.
🔗
Multi-step
Raciocínio encadeado complexo que exige lógica.
📂
Base incompleta
Resposta simplesmente não existe nos docs.
🗑️
Dados sujos
OCR ruim, formatação errada, PDFs escaneados.
📈
Escala
Custo cresce exponencial com volume de dados.
🔒
Segurança
Risco de vazamento de dados confidenciais.
🔑 Panorama das Ferramentas
🔗 LangChain
Framework mais completo. 600+ integrações.
MAIS POPULAR
👥 CrewAI
Agentes como "equipes" com papéis definidos.
MAIS FÁCIL
□ AutoGen
Conversação entre agentes, executa código.
EXPERIMENTAL
🚀 Agno
Deploy rápido, foco em performance.
PRODUÇÃO
💡 Cada framework tem seu nicho. Escolha pelo seu nível de experiência e caso de uso — não existe "melhor" universal.
🔗 LangChain / LangGraph
Framework Python para apps com LLMs usando grafos de estado.
✓ Pros
- 600+ integrações
- Documentação extensa
- Comunidade ativa
- LangSmith debug
✗ Contras
- Curva de aprendizado maior
- Pode ser complexo
- Updates quebram código
🎯 Ideal para: projetos robustos, equipes experientes, quando precisa de máxima flexibilidade e integrações.
👥 CrewAI
Agentes como equipes: cada um tem papel e tarefas são delegadas.
✓ Pros
- Mais fácil de começar
- Documentação excelente
- Modelo intuitivo
- Muitos exemplos
✗ Contras
- Menos flexível
- Menos integrações
- Comunidade menor
🎯 Ideal para: iniciantes, automações com múltiplos agentes colaborando, prototipagem rápida.
□ AutoGen (Microsoft)
Agentes conversam entre si, podem executar código em Docker.
✓ Pros
- Suporte Microsoft
- Execução de código segura
- AutoGen Studio (UI visual)
✗ Contras
- Complexidade cresce
- Menos previsível
- Mais voltado p/ pesquisa
🎯 Ideal para: pesquisa, automações que precisam executar código, cenários multi-agente experimentais.
🚀 Agno (ex-Phidata)
Foco em composabilidade e performance para deploys rápidos.
✓ Pros
- Deploy muito rápido
- Alta performance
- Foco em produção
✗ Contras
- Comunidade menor
- Menos recursos
- Menos integrações
🎯 Ideal para: equipes que precisam de performance em produção e não querem overhead de frameworks maiores.
✈️ Agno vs LangChain — Complexidade
🚀
Agno
Simples, rápido. Você decola em minutos.
🔗
LangChain / LangGraph
Controle total. Leva tempo pra aprender, mas voa em qualquer missão.
⚖️ Comparação Final
| Critério |
LangChain |
CrewAI |
AutoGen |
Agno |
| Facilidade |
⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐ |
⭐⭐⭐ |
| Integrações |
⭐⭐⭐⭐⭐ |
⭐⭐⭐ |
⭐⭐⭐ |
⭐⭐⭐ |
| Performance |
⭐⭐⭐⭐ |
⭐⭐⭐ |
⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
| Produção |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐ |
⭐⭐⭐⭐ |
🔗 LangChain — máxima flexibilidade e integrações
👥 CrewAI — mais fácil, perfeito pra começar
□ AutoGen — execução de código, pesquisa
🚀 Agno — performance e deploy em produção