Cases NCI INNOVA
Chatbot para Contratos
Nosso desafio: criar um chatbot capaz de interagir ativamente com contratos, transformando a maneira como buscamos informações.
Neste case, vamos explorar como a nossa prova de conceito superou barreiras linguísticas, tecnológicas e de complexidade, abrindo um novo caminho para a eficiência e a acessibilidade no manuseio de contratos.
Desafio
Utilizar Inteligência Artificial (LLMs / ChatGPT)
para interpretar contratos
A gestão de contratos é um verdadeiro desafio. Em um cenário em que um simples documento pode abranger centenas de páginas, em diferentes idiomas, a tarefa de encontrar informações específicas torna-se não apenas tediosa, mas também propensa a erros.
E se pudéssemos utilizar as mais modernas tecnologias para conversar com os contratos?
A ideia parece simples. Mas a execução exigiu muita inovação e tecnologia de ponta.
Nosso objetivo era claro: criar um chatbot que permitisse aos usuários extrair informações de contratos de maneira rápida, precisa e, acima de tudo, intuitiva.
A ferramenta que desenvolvemos não apenas facilita a localização de dados relevantes em contratos extensos, mas também supera barreiras linguísticas, tornando a interpretação de documentos em diferentes idiomas algo descomplicado e acessível.
Acompanhe a seguir detalhes deste projeto.
O Poder das Large Language Models
(LLMs) na Interpretação de Contratos
As LLMs são sistemas de inteligência artificial avançados, treinados em enormes conjuntos de dados textuais, capazes de entender e gerar linguagem humana de maneira natural e precisa. Adotando uma LLM em nossa solução, oferecemos aos usuários uma ferramenta poderosa, que não só entende e sintetiza informações de contratos, mas também facilita a interação com esses documentos de forma intuitiva e eficaz – e em seu idioma nativo.
Apesar das vantagens significativas das LLMs, ainda existem desafios significativos ao trabalhar com elas, especialmente em cenários com um grande volume de documentos.
Principais Desafios
Limites tecnológicos
As LLMs como o ChatGPT, têm uma capacidade máxima de processamento de 'tokens' (palavras). Com contratos extensos, é comum atingir esse limite rapidamente, exigindo estratégias para dividir o texto ou resumir seções sem perder informações importantes.
Custo Operacional
A utilização de LLMs envolve custos baseados no número de tokens processados. Em grandes volumes de dados, isso pode se tornar uma questão econômica significativa, exigindo um planejamento cuidadoso para equilibrar custo e eficiência.
Tempo de Resposta
Embora LLMs sejam rápidas em comparação com a leitura humana, o processamento de grandes volumes de textos – ainda mais os técnicos, complexos e extensos – pode levar tempo considerável, impactando a eficiência do sistema.
Solução
Superando os desafios com RAG e MMR
A fim de superar, de forma inovadora, os desafios do projeto, adotamos soluções baseadas na técnica RAG (Retrieval Augmented Generation), que combina a recuperação de informações relevantes (retrieval) com a geração de texto baseada em IA (generation), e a abordagem de Maximal Marginal Relevance (MMR).
Passo 1: Fracionamento dos Contratos
Cada contrato é segmentado, a fim de contornar o limite de tokens das LLMs e facilitar a indexação dos documentos.
Passo 2: Indexação em Base de Vetores
Cada segmento é convertido em vetores usando técnicas avançadas de processamento de linguagem natural. Utilizamos o próprio ChatGPT, convertemos os vários trechos de texto em um em um vetor numérico, que captura o significado do texto. Esses vetores são então armazenados em uma base de dados especializada.
Solução
Etapas de Questionamentos
A solução de chatbot permite que o usuário ‘converse’ com o contrato analisado, enviando dúvidas e questões sobre o conteúdo. Cada prompt é processado da seguinte forma:
Inicialmente, o sistema identifica palavras-chave e conceitos relevantes contidos no prompt. Estes são buscados na base de vetores por segmentos de contratos que tenham uma relação semântica com a consulta, identificando semelhanças e conexões entre eles.
Recuperação de conjunto de segmentos que aparentam ter a maior relevância para a pergunta. Etapa fundamental, já que é necessário restringir o número de documentos retornados devido às restrições computacionais.
O MMR, Maximal Marginal Relevance, é uma técnica que aprimora a seleção de documentos, equilibrando relevância e diversidade. Ao escolher segmentos de contratos, o MMR busca não só a pertinência ao assunto, mas também a unicidade entre os documentos selecionados. Isso minimiza a perda de informações importantes, reduz o viés de seleção e diminui redundâncias.
Com a pergunta e o contexto (o conjunto de trechos pertinentes do contrato) em mãos, o ChatGPT processa essa informação. Graças ao seu treinamento avançado em linguagem natural e capacidade de entender e gerar texto, o ChatGPT analisa o contexto fornecido, relaciona-o com a pergunta e trabalha para gerar uma resposta baseada no contrato.
O resultado é uma resposta gerada pelo agente que não apenas responde à pergunta feita, mas o faz com um entendimento profundo e específico do contexto fornecido pelos documentos contratuais, evitando problemas graves como a perda de informações relevantes, o viés na seleção de conteúdo e a redundância de informações – sanados pela implementação da técnica de Maximal Marginal Relevance (MMR).
resultados
Com este projeto, conseguimos atingir os objetivos de eficiência, baixo custo e versatilidade linguística
Nossa abordagem transformou a forma como interagimos com contratos extensos e complexos. Confira abaixo os principais resultados.
Baixo Custo Operacional
Graças à otimização na seleção e uso dos documentos e à eficácia do sistema RAG/MMR em fornecer contextos precisos para o agente, conseguimos manter os custos operacionais significativamente baixos. Isso representou uma economia substancial, mesmo nas tarefas mais complexas.
Velocidade na Localização de Informações
Antes, a busca por cláusulas ou termos específicos em documentos extensos poderia levar horas. Com a nossa abordagem, essa tarefa passou a ser realizada em questão de minutos (ou segundos), aumentando drasticamente a velocidade e efetividade com o qual respondemos a dúvidas contratuais.
Barreira Linguística Superada
A capacidade de questionar e analisar contratos redigidos em qualquer idioma usando o português rompeu barreiras linguísticas e representou um avanço substancial em acessibilidade e compreensão, especialmente considerando a alternativa dispendiosa de análises manuais ou o uso de múltiplas ferramentas de tradução e interpretação.
Tecnologias Integradas para uma Solução Inovadora
Python
GPT 4
PyPDF
LangChain
LLMs
IA
Maximal Marginal Relevance
Pinecone
Dados Vetoriais
Retrieval Augmented Generation