DataNow — RAG

1

💡 O que é RAG e por que precisamos dele?

3 min de leitura

▼

Imagine que você tem 1 milhão de linhas de vendas num arquivo CSV. Você quer perguntar: "Qual produto teve maior crescimento no último trimestre?"

Um LLM (como Gemini ou GPT) não sabe responder isso — ele nunca viu seus dados. E mesmo que soubesse, não cabem 1 milhão de linhas na "memória" do LLM.

RAG resolve isso em 3 etapas:

🧠 Etapa 1 — Embedding (Ensinar)

Transformamos cada pedaço dos seus dados em um vetor numérico (lista de ~384 números). Dados semelhantes geram vetores semelhantes. Chamamos isso de embedding.

🗄️ Etapa 2 — Armazenar (Guardar)

Os vetores são salvos no ChromaDB — um banco de dados de vetores. Cada vetor é guardado junto com o texto original e metadados.

🔍 Etapa 3 — Retrieval + Geração (Buscar + Responder)

Quando você faz uma pergunta, ela também vira um vetor. O ChromaDB busca os vetores mais semelhantes à pergunta. Esses pedaços são enviados ao LLM junto com a pergunta — e ele responde!

📊 Por que não enviar tudo ao LLM?

LLMs têm limite de tokens (contexto). Enviar 10 mil linhas consumiria toda a memória e geraria erros ou respostas ruins. RAG busca somente o relevante.

2

📐 Embedding — Convertendo Texto em Números

5 min de leitura + código

▼

Sentence Transformers é uma biblioteca que transforma texto em vetores numéricos. No DataNow usamos o modelo all-MiniLM-L6-v2 — rápido e eficiente. Cada texto vira um vetor de 384 dimensões.

Textos com significado parecido geram vetores próximos no espaço numérico. Isso permite buscar por "receita de janeiro" e encontrar a linha que fala de "faturamento do mês 1".

🔢 O que é um vetor de embedding?

Um vetor é uma lista de números. Exemplo simplificado: ["receita", "janeiro"] → [0.23, -0.45, 0.78, ...] (384 números no modelo real).

A mágica: se "faturamento janeiro" gerar vetor similar a "receita janeiro", significa que o modelo entendeu que são conceitos próximos!

Python Etapa 1 — Carregar modelo e gerar embedding

from sentence_transformers import SentenceTransformer
# Modelo leve e rápido — 384 dimensões
modelo = SentenceTransformer('all-MiniLM-L6-v2')
# Cada texto vira um vetor de 384 números
textos = ["Receita Janeiro: R$ 120.000",
          "Custos Janeiro: R$ 85.000"]
# .encode() transforma texto → vetor numérico
vetores = modelo.encode(textos)
print(vetores.shape)  # (2, 384)

💡 Por que chunking?

Dados grandes precisam ser divididos em pedaços (chunks). Se cada chunk for uma linha de 100 caracteres, cada vetor representa uma linha. Se for grande demais, o vetor perde granularidade. Recomendamos 20-50 linhas por chunk.

3

🗄️ ChromaDB — O Banco de Dados Vetorial

4 min de leitura + código

▼

O ChromaDB é um banco de dados feito para guardar vetores. Ele é ultra-rápido buscando vetores similares — em milissegundos encontra os K vetores mais próximos da sua pergunta.

No DataNow, cada coleção RAG é uma tabela no ChromaDB com:

id — identificador único do chunk
embedding — o vetor de 384 dimensões
document — o texto original do chunk
metadata — origem, linha, tabela, data...

Python Etapa 2 — Criar coleção e adicionar embeddings

import chromadb
# Cliente persistente — sobrevive a reinicializações
cliente = chromadb.PersistentClient(
    path="/var/www/datanow/chromadb_data"
)
# Cria ou abre coleção com embedding configurado
colecao = cliente.get_or_create_collection(
    name="vendas_2024",
    metadata={"dimensions": 384}
)
# Adiciona vetores + textos + metadados
colecao.add(
    embeddings=vetores,          # vetores do SentenceTransformer
    documents=textos,           # textos originais dos chunks
    ids=[f"chunk_{i}" for i in range(len(textos))]
)

Python Etapa 3 — Buscar vetores semelhantes

# Pergunta → embedding → busca no ChromaDB
pergunta_emb = modelo.encode(["Qual mes teve maior receita?"])
# query() retorna os K documentos mais similares
resultados = colecao.query(
    query_embeddings=pergunta_emb,
    n_results=3  # top-3 mais semelhantes
)
print(resultados['documents'][0])
# ['Receita Janeiro: R$ 120.000',
#  'Receita Fevereiro: R$ 135.000',
#  'Receita Dezembro: R$ 245.000']

4

🔗 LangChain — Conectando Tudo ao LLM

5 min de leitura + código

▼

O LangChain é o "cola" entre ChromaDB e o LLM. Ele monta o prompt com os trechos encontrados e envia ao LLM.

O fluxo completo:

Pergunta do usuário
Embedding da pergunta (SentenceTransformer)
Busca no ChromaDB (top-K similares)
Montagem do prompt com contexto + pergunta
Envio ao LLM (sua API key cadastrada)
Resposta gerada com base nos dados reais

Python Etapa 4 — Montar prompt e chamar LLM

import os
from langchain_openai import ChatOpenAI
# LLM do usuário (Gemini, OpenAI, OpenRouter...)
llm = ChatOpenAI(
    model="gemini-2.0-flash",
    api_key=os.getenv("GEMINI_API_KEY")
)
# Contexto montado com trechos do ChromaDB
trechos = resultados['documents'][0]
contexto = "\n".join(trechos)
# Prompt ingênuo (naive prompt) — simples e eficaz
prompt = f"""
Com base nos seguintes dados, responda a pergunta.
Se a informacao nao estiver nos dados, diga que nao sabe.
Dados:
{contexto}
Pergunta: {pergunta}
"""
resposta = llm.invoke(prompt)

⚡ Por que não usar RetrievalQA do LangChain?

O RetrievalQA é prático mas pouco controlável. O prompt ingênuo (naive) acima permite customizar exatamente o que o LLM recebe — incluindo a instrução de citar fontes. Isso gera respostas mais precisas e auditáveis.

5

🚀 Próximos Passos — Do Tutorial ao Código Real

5 min

▼

Parabéns! Você entendeu o processo completo de RAG. Agora, como exercício, que tal replicar esse código no Notebook?

🎯 Exercício Sugerido

No Notebook, carregue seus dados tratados (camada Gold), faça chunking, gere embeddings, salve no ChromaDB e teste uma pergunta.

Por que fazer na mão? Porque assim você entende cada etapa — e quando algo não funcionar, você saberá debugar. Engineering de dados é isso!

📈 Evoluindo para Agentes RAG

O sistema atual usa chain linear (busca → responde). Numa versão futura, poderíamos usar um agente LangChain que:

Decide qual coleção consultar baseado na pergunta
Refina a busca se a resposta for insuficiente
Executa código Python para agregar dados antes de responder
交叉 valida respostas com múltiplas fontes

▶

O que é RAG? — Explained Simply

🔗 youtube.com — 8 min

▶

LangChain + ChromaDB — Full RAG Tutorial

🔗 youtube.com — 22 min

▶

Sentence Transformers — Como Funciona

🔗 youtube.com — 12 min

🔎 RAG — Retrieval Augmented Generation