A Mistral AI introduziu o OCR 4, uma nova versão do seu modelo de reconhecimento de documentos. O software não deve apenas ler texto de PDF e outros documentos, mas também estruturar o conteúdo. Novos recursos incluem informações de posição para blocos de texto, classificação de elementos reconhecidos e valores de confiança para palavras e páginas individuais. O modelo aborda o processamento de documentos em sistemas de pesquisa empresarial, pipelines RAG e fluxos de trabalho semelhantes.
Leia mais depois do anúncio
OCR 4 oferece mais do que apenas texto
Os sistemas anteriores de reconhecimento óptico de caracteres (OCR) produziam principalmente texto simples a partir de uma página. OCR 4 é mais: o modelo de assinatura de cada elemento é reconhecido pela caixa delimitadora da página. Além disso, fornece conteúdo para determinados tipos de blocos, como títulos, tabelas, equações ou assinaturas. A pontuação de confiança indica o quão confiante o modelo é reconhecido.
Isso deve facilitar o processamento de documentos. Os aplicativos de pesquisa podem não apenas indexar palavras, mas também reconhecer se uma seção de texto é um título ou um valor de tabela. O sistema de teste pode contornar áreas que não são seguras para humanos. E os fluxos de trabalho editoriais ou de conformidade podem destacar ou sublinhar o texto no documento original.
Use em pesquisa, RAG e agentes
Mistral prevê o OCR 4 como um alicerce para pesquisa corporativa, geração de pesquisa aumentada e pipelines de pesquisa específicos de domínio. A saída estruturada destina-se a ajudar a dividir os documentos em módulos significativos de pesquisa e resposta. Mistral chama isso de fragmentação semântica: não é o comprimento da página que determina a divisão, mas a estrutura do documento. É mais provável que tabelas ou parágrafos permaneçam como uma unidade.
A Mistral também planeja usar o aplicativo para o fluxo de trabalho do agente – ou seja, em um sistema de IA que não apenas lê informações, mas também inicia tarefas com base nelas, como preenchimento de formulários, processamento de faturas ou preparação de verificações de conformidade. Portanto, é útil que o sistema OCR não apenas transmita o texto, mas também compreenda a função estrutural dos elementos do conteúdo.
Multilinguismo e auto-hospedagem
Leia mais depois do anúncio
Segundo Mistral, o OCR 4 suporta 170 idiomas em dez grupos de idiomas. O grupo inclui idiomas ingleses, da Europa Ocidental e Oriental, chineses e do Leste Asiático, bem como categorias especiais para idiomas como hindi, japonês, georgiano, bengali ou tâmil. A empresa apresenta melhores resultados principalmente para idiomas em categorias especiais, bem como para idiomas menos comuns, onde outros sistemas costumam apresentar pontos fracos.
Segundo Mistral, o modelo pode ser operado em sua própria instância de contêiner, se desejado, de modo que o OCR 4 possa ser utilizado mesmo com altos requisitos de soberania de dados, proteção de dados ou conformidade. Formatos comuns como PDF, DOC, PPT e OpenDocument são suportados.
Classificação de referência
Mistral compartilhou seus próprios benchmarks e externos para OCR 4. Em avaliações cegas feitas por auditores independentes, o modelo foi considerado melhor, em média, do que os sistemas concorrentes de IA e OCR. No benchmark público OlmOCRBench, o OCR 4 atingiu uma pontuação máxima de 85,20 pontos, de acordo com o anúncio da Mistral. A empresa deu 93,07 pontos no OmniDocBench.
No entanto, o próprio Mistral salienta que os resultados do benchmark podem ser distorcidos por fórmulas matemáticas, documentos com várias colunas ou dados de referência incorretos. Um modelo pode estar correto na prática, mas ainda assim ser avaliado como incorreto nos testes. Para uma avaliação confiável, a empresa recomenda documentos e fluxos de trabalho próprios.
API, Document AI e preços
OCR 4 pode ser conectado via API. A funcionalidade básica sempre fornece conteúdo extraído, caixas delimitadoras, tipos de bloco, pontuações de confiança e texto estruturado semelhante ao Markdown. Se precisar de mais estrutura, você pode ativar a função adicional AI Document. A saída JSON pode então ser gerada de acordo com um esquema ou modelo específico, interpretando o conteúdo com prompts adicionais.
Mistral distingue entre extração pura e processamento mais estruturado. Para os desenvolvedores, isso significa: se você precisar apenas da saída OCR, poderá manter a configuração básica. Caso queira transferir faturas, formulários ou outros documentos diretamente para o campo fixo, adicione o parâmetro Document AI na mesma solicitação. De acordo com Mistral, a API OCR custa US$ 4 por 1.000 páginas, ou US$ 2 por 1.000 páginas em modo lote. Documentos AI US$ 5 por 1.000 páginas.
disponibilidade
De acordo com a empresa, Mistral OCR 4 e funções de IA baseadas em documentos estão disponíveis através do Mistral Studio, Amazon SageMaker e Microsoft Foundry. A Mistral também integrou o OCR 4 em seu próprio Search Toolkit, que está atualmente em versão prévia pública.
Leia também
(foo)