🔍

−

100%

⎵ + arrastar = mover

✏️ Anotações OFF

Tamanho

🧹 Borracha

🗑️ Limpar

🤖

Meu Primeiro Agente de IA

Do Conceito à Produção

Prof: Raphael Popiolek

RAG Tokens Embeddings Agentes

2026 · apresentaia.trecofantastico.com.br

🔄 ChatGPT vs Agente de IA

🏠 ChatGPT

Conhecimento genérico
Dados até data de corte
Não conhece SUA empresa

🤖 Agente de IA

Conhecimento específico
Dados sempre atualizados
Treinado com SEUS dados

        💡 Um Agente de IA personalizado responde com o contexto do seu negócio, não com informações genéricas da internet.
      

⚠️ O Problema da Alucinação

        Alucinação: Quando o modelo gera informações que parecem corretas mas são inventadas ou imprecisas.
      

❓ Por que acontece?

Falta de contexto específico
Dados de treino desatualizados
Modelo "completa" informação

✅ Como RAG resolve?

Busca em base de dados real
Contexto atualizado
Redução de até 18% nas alucinações

🪙 Tokens: A Moeda da IA

        Token = menor unidade de texto que o modelo processa (palavra, parte de palavra ou pontuação).
      

📝 Exemplo

"Inteligencia Artificial" = 3–4 tokens
"IA" = 1 token
"." = 1 token

💰 Por que importa?

Cobrança por token
Limite de contexto
~1000 tokens = 750 palavras

        🧮 Quanto mais tokens você envia por requisição, maior o custo. Otimizar tokens = economizar dinheiro.
      

✂️ Chunks: Como a IA Divide seu Conteúdo

Chunk = pedaço do documento original, dividido de forma inteligente.

📄

Doc 100pg

→

✂️

Chunking

→

🗂️

200 chunks

📏 chunk_size

Tamanho máximo de cada pedaço. Ex: 512 tokens. Muito grande = perde precisão. Muito pequeno = perde contexto.

🔁 chunk_overlap

Tokens repetidos entre chunks adjacentes. Ex: 50 tokens de sobreposição para não cortar o raciocínio no meio.

🔢 Embeddings: Texto em Números

Embedding = vetor numérico que captura o significado semântico do texto.

📍 Analogia: CEP Semântico

CEPs próximos = endereços próximos
Embeddings similares = significados similares

            "Cachorro" → [0.2, 0.8, ...]

            "Cão"     → [0.21, 0.79, ...]

            Muito próximos! ✓

🏭 Provedores

OpenAI — text-embedding-3
GPT4All — Local, gratuito
Cohere — embed-v3

Texto → Embedding → Vector DB → Busca semântica

🔀 Fluxo Completo do Agente

Indexação (uma vez)

📄

Docs

→

✂️

Chunks

→

🔢

Embeddings

→

🗃️

Vector DB

Consulta (cada pergunta)

🙋

Pergunta

→

🔍

Busca

→

📝

Contexto

→

🤖

Resposta

        ⚡ A indexação acontece uma única vez. A consulta repete a cada pergunta do usuário, sendo ultra-rápida pois o trabalho pesado já foi feito.
      

✨ O que é RAG?

        RAG = Retrieval-Augmented Generation. Combina busca + geração para respostas precisas.
      

🔍

Retrieval

Encontra os documentos mais relevantes na sua base de conhecimento usando busca semântica por embeddings.

✍️

Generation

LLM recebe os documentos encontrados como contexto e gera uma resposta precisa e fundamentada.

❓ Pergunta

→

🔍 Retrieval

📚 Contexto

→

✅ Resposta

🗂️ Tipos de RAG

Tipo	Descrição	Complexidade	Uso
Naive	Busca simples + geração	BAIXA	MVPs
Hybrid	Semântico + keyword	MÉDIA	Docs técnicos
Re-Ranking	Reordena resultados	MÉDIA	Alta precisão
GraphRAG	Grafos de conhecimento	ALTA	Relações
Agentic	Decisões autônomas	ALTA	Chatbots
Self-RAG	Auto-avaliação	ALTA	Crítico

⚡ Naive RAG (Básico)

Query

→

RetrieveTop-K

→

Generate

✓ Pros

Simples
Rápido de começar
Baixo custo

✗ Contras

Menos preciso
Sem reordenação
Limitado

        🚀 Ideal para começar. Se funciona para o seu caso de uso — ótimo. Só adicione complexidade se precisar.
      

🔀 Hybrid RAG

Combina busca semântica (embeddings) + palavras-chave (BM25).

Query

→

DenseSemântico

SparseBM25

→

Merge

✅ Vantagem

Captura significado E termos exatos (códigos, siglas). O melhor dos dois mundos.

🎯 Quando usar

Docs técnicos, manuais, bases com códigos, siglas ou terminologia específica.

↕️ Re-Ranking

        Re-Ranking = reordena resultados usando modelo especializado para priorizar os mais relevantes.
      

RetrieveTop 50

→

Re-Rank

→

Top 5

→

LLM

📈 Trade-off

Adiciona latência, mas melhora MUITO a qualidade das respostas. Vale o custo em casos críticos.

🛠️ Ferramentas

Cohere Rerank, BGE Reranker, Jina Reranker. Fácil de plugar em qualquer pipeline RAG.

🕸️ GraphRAG (Microsoft)

Usa grafos de conhecimento para entender relações entre entidades.

77.6%

Melhoria MRR
(LinkedIn)

28.6%

Redução de
tempo

26–97%

Menos
tokens

🎯 Quando usar: Análises globais, perguntas cross-document, relatórios, BI.

🤖 Agentic RAG

        RAG com decisão autônoma. Decide quando buscar, o que buscar, múltiplas buscas.
      

Query

→

AgentDecide

↔

Tools

→

Resposta

⚙️ Capacidades

Múltiplas buscas
Auto-correção
Usa ferramentas externas

🎯 Quando usar

Chatbots complexos
Pesquisa
Fluxos multi-etapa

🔄 Self-RAG / Corrective RAG

Self-RAG = avalia próprias respostas e decide se precisa buscar mais.

Generate

→

EvaluateCorreto?

→

Não?Busca mais

↺

✅ Benefícios

Detecta quando não sabe
Reduz alucinações

🎯 Quando usar

Saúde, jurídico
Alta precisão necessária

🖼️ Multimodal RAG

Processa e busca em texto + imagens + áudio + vídeo.

📄

Texto

🖼️

Imagens

🎵

Áudio

🎬

Vídeo

▶️ Case: Vimeo

Usuários perguntam "Do que trata o vídeo?" e o sistema retorna momentos específicos com timestamps precisos — sem assistir o vídeo inteiro.

🚫 Quando RAG NÃO Funciona

📅

Dados velhos

Info desatualizada ou contraditória na base.

🔗

Multi-step

Raciocínio encadeado complexo que exige lógica.

📂

Base incompleta

Resposta simplesmente não existe nos docs.

🗑️

Dados sujos

OCR ruim, formatação errada, PDFs escaneados.

📈

Escala

Custo cresce exponencial com volume de dados.

🔒

Segurança

Risco de vazamento de dados confidenciais.

🔑 Panorama das Ferramentas

🔗 LangChain

Framework mais completo. 600+ integrações.

MAIS POPULAR

👥 CrewAI

Agentes como "equipes" com papéis definidos.

MAIS FÁCIL

□ AutoGen

Conversação entre agentes, executa código.

EXPERIMENTAL

🚀 Agno

Deploy rápido, foco em performance.

PRODUÇÃO

        💡 Cada framework tem seu nicho. Escolha pelo seu nível de experiência e caso de uso — não existe "melhor" universal.
      

🔗 LangChain / LangGraph

Framework Python para apps com LLMs usando grafos de estado.

✓ Pros

600+ integrações
Documentação extensa
Comunidade ativa
LangSmith debug

✗ Contras

Curva de aprendizado maior
Pode ser complexo
Updates quebram código

        🎯 Ideal para: projetos robustos, equipes experientes, quando precisa de máxima flexibilidade e integrações.
      

👥 CrewAI

Agentes como equipes: cada um tem papel e tarefas são delegadas.

✓ Pros

Mais fácil de começar
Documentação excelente
Modelo intuitivo
Muitos exemplos

✗ Contras

Menos flexível
Menos integrações
Comunidade menor

        🎯 Ideal para: iniciantes, automações com múltiplos agentes colaborando, prototipagem rápida.
      

□ AutoGen (Microsoft)

Agentes conversam entre si, podem executar código em Docker.

✓ Pros

Suporte Microsoft
Execução de código segura
AutoGen Studio (UI visual)

✗ Contras

Complexidade cresce
Menos previsível
Mais voltado p/ pesquisa

        🎯 Ideal para: pesquisa, automações que precisam executar código, cenários multi-agente experimentais.
      

🚀 Agno (ex-Phidata)

Foco em composabilidade e performance para deploys rápidos.

✓ Pros

Deploy muito rápido
Alta performance
Foco em produção

✗ Contras

Comunidade menor
Menos recursos
Menos integrações

        🎯 Ideal para: equipes que precisam de performance em produção e não querem overhead de frameworks maiores.
      

✈️ Agno vs LangChain — Complexidade

🚀

Agno

Simples, rápido. Você decola em minutos.

🔗

LangChain / LangGraph

Controle total. Leva tempo pra aprender, mas voa em qualquer missão.

⚖️ Comparação Final

Critério	LangChain	CrewAI	AutoGen	Agno
Facilidade	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
Integrações	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
Performance	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐
Produção	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐	⭐⭐⭐⭐

🔗 LangChain — máxima flexibilidade e integrações

👥 CrewAI — mais fácil, perfeito pra começar

□ AutoGen — execução de código, pesquisa

🚀 Agno — performance e deploy em produção