Recuperação / RAG

Respostas fundamentadas no seu próprio conhecimento

Envie seus documentos, aponte-nos para um site ou sincronize do armazenamento em nuvem. Analisamos, fragmentamos, enriquecemos e incorporamos tudo — e então recuperamos as passagens certas no momento da consulta para que seu agente responda com o que você realmente escreveu, não com suposições.

O que o stack de recuperação faz

  • Ingira qualquer coisa

    PDFs, documentos do Office, Markdown, HTML e sites inteiros — além de sincronização com Google Drive, Dropbox, OneDrive e Box. Roteamos cada arquivo para o analisador certo e mantemos tudo em sincronia com a fonte.

  • Fragmentação contextual

    Os documentos são divididos em fragmentos sobrepostos que respeitam a hierarquia, e cada fragmento é enriquecido com um breve resumo de contexto antes de ser incorporado — para que um fragmento ainda faça sentido por si só quando recuperado fora de ordem.

  • Busca híbrida

    Cada consulta executa em paralelo a busca vetorial densa e a busca por palavras-chave (BM25), e então funde os resultados — capturando tanto correspondências semânticas quanto termos exatos como códigos de produto ou mensagens de erro que as incorporações puras não encontram.

  • Reranking

    Um cross-encoder reordena os candidatos fundidos com base na pergunta real, levando as passagens genuinamente relevantes para o topo antes que cheguem ao modelo — menos quase-acertos, respostas mais precisas.

  • Contexto pai

    Quando um fragmento pequeno corresponde, trazemos a seção pai ao seu redor para que o modelo veja a ideia completa, não uma frase recortada — um embasamento que parece ter entendido a página inteira.

  • Recuperação isolada por organização

    Cada busca é limitada à sua organização. Sua base de conhecimento nunca é misturada com a de outra organização, nunca é usada para treinar modelos e é apagada quando você solicitar.

Do envio à resposta fundamentada

A indexação acontece uma vez no envio; a recuperação acontece a cada pergunta. Planos superiores liberam modos de consulta mais profundos que adicionam etapas como decomposição e reranking mais amplo — trocando um pouco de velocidade por respostas mais completas.

  1. Analisar e fragmentar

    Cada fonte é analisada por formato e dividida em fragmentos que respeitam a hierarquia, com sobreposição, preservando títulos e estrutura.

  2. Enriquecer e incorporar

    Cada fragmento recebe um breve resumo de contexto, depois é incorporado e enviado ao banco vetorial — em cache, para que a reindexação continue barata.

  3. Analisar a consulta

    As perguntas recebidas são reescritas e, nos planos mais profundos, decompostas em subconsultas para que perguntas de várias partes recuperem a evidência certa para cada parte.

  4. Busca híbrida e reranking

    Os resultados vetoriais e por palavras-chave são fundidos, depois reordenados por um cross-encoder com base na pergunta para destacar as passagens mais fortes.

  5. Montar e responder

    As melhores passagens recebem seu contexto pai anexado e são entregues ao modelo, que responde estritamente a partir da evidência recuperada — com resultados em cache para perguntas repetidas.

Conheça outros recursos