Mistral OCR 4: Análise de documentos para 170 idiomas

A Mistral AI introduziu o OCR 4, uma nova versão do seu modelo de reconhecimento de documentos. O software não deve apenas ler texto de PDF e outros documentos, mas também estruturar o conteúdo. Novos recursos incluem informações de posição para blocos de texto, classificação de elementos reconhecidos e valores de confiança para palavras e páginas individuais. O modelo aborda o processamento de documentos em sistemas de pesquisa empresarial, pipelines RAG e fluxos de trabalho semelhantes.

OCR 4 oferece mais do que apenas texto

Os sistemas anteriores de reconhecimento óptico de caracteres (OCR) produziam principalmente texto simples a partir de uma página. OCR 4 é mais: o modelo de assinatura de cada elemento é reconhecido pela caixa delimitadora da página. Além disso, fornece conteúdo para determinados tipos de blocos, como títulos, tabelas, equações ou assinaturas. A pontuação de confiança indica o quão confiante o modelo é reconhecido.

Isso deve facilitar o processamento de documentos. Os aplicativos de pesquisa podem não apenas indexar palavras, mas também reconhecer se uma seção de texto é um título ou um valor de tabela. O sistema de teste pode contornar áreas que não são seguras para humanos. E os fluxos de trabalho editoriais ou de conformidade podem destacar ou sublinhar o texto no documento original.

Use em pesquisa, RAG e agentes

Mistral prevê o OCR 4 como um alicerce para pesquisa corporativa, geração de pesquisa aumentada e pipelines de pesquisa específicos de domínio. A saída estruturada destina-se a ajudar a dividir os documentos em módulos significativos de pesquisa e resposta. Mistral chama isso de fragmentação semântica: não é o comprimento da página que determina a divisão, mas a estrutura do documento. É mais provável que tabelas ou parágrafos permaneçam como uma unidade.

A Mistral também planeja usar o aplicativo para o fluxo de trabalho do agente – ou seja, em um sistema de IA que não apenas lê informações, mas também inicia tarefas com base nelas, como preenchimento de formulários, processamento de faturas ou preparação de verificações de conformidade. Portanto, é útil que o sistema OCR não apenas transmita o texto, mas também compreenda a função estrutural dos elementos do conteúdo.

Multilinguismo e auto-hospedagem

Classificação de referência

Mistral compartilhou seus próprios benchmarks e externos para OCR 4. Em avaliações cegas feitas por auditores independentes, o modelo foi considerado melhor, em média, do que os sistemas concorrentes de IA e OCR. No benchmark público OlmOCRBench, o OCR 4 atingiu uma pontuação máxima de 85,20 pontos, de acordo com o anúncio da Mistral. A empresa deu 93,07 pontos no OmniDocBench.

No entanto, o próprio Mistral salienta que os resultados do benchmark podem ser distorcidos por fórmulas matemáticas, documentos com várias colunas ou dados de referência incorretos. Um modelo pode estar correto na prática, mas ainda assim ser avaliado como incorreto nos testes. Para uma avaliação confiável, a empresa recomenda documentos e fluxos de trabalho próprios.

API, Document AI e preços

OCR 4 pode ser conectado via API. A funcionalidade básica sempre fornece conteúdo extraído, caixas delimitadoras, tipos de bloco, pontuações de confiança e texto estruturado semelhante ao Markdown. Se precisar de mais estrutura, você pode ativar a função adicional AI Document. A saída JSON pode então ser gerada de acordo com um esquema ou modelo específico, interpretando o conteúdo com prompts adicionais.

Mistral distingue entre extração pura e processamento mais estruturado. Para os desenvolvedores, isso significa: se você precisar apenas da saída OCR, poderá manter a configuração básica. Caso queira transferir faturas, formulários ou outros documentos diretamente para o campo fixo, adicione o parâmetro Document AI na mesma solicitação. De acordo com Mistral, a API OCR custa US$ 4 por 1.000 páginas, ou US$ 2 por 1.000 páginas em modo lote. Documentos AI US$ 5 por 1.000 páginas.

disponibilidade

De acordo com a empresa, Mistral OCR 4 e funções de IA baseadas em documentos estão disponíveis através do Mistral Studio, Amazon SageMaker e Microsoft Foundry. A Mistral também integrou o OCR 4 em seu próprio Search Toolkit, que está atualmente em versão prévia pública.

Mistral OCR 4: Análise de documentos para 170 idiomas

OCR 4 oferece mais do que apenas texto

Use em pesquisa, RAG e agentes

Multilinguismo e auto-hospedagem

Classificação de referência

API, Document AI e preços

disponibilidade

Leia também

Deixe um comentário Cancelar resposta

OCR 4 oferece mais do que apenas texto

Use em pesquisa, RAG e agentes

Multilinguismo e auto-hospedagem

Classificação de referência

API, Document AI e preços

disponibilidade

Related Posts

“Um eletrochoque”: DJ Mosiman conta como se tornou pai

Forte terremoto atinge Venezuela e desaba edifícios na capital Caracas

As empresas criticam algumas partes da reforma previdenciária

Deixe um comentário Cancelar resposta