[ad_1]
O OCR, ou reconhecimento óptico de caracteres, nada mais é que a conversão de imagens digitalizadas de texto manuscrito, datilografado ou impresso em documentos pesquisáveis e editáveis. O software OCR é capaz de reconhecer a diferença entre caracteres e imagens, e entre os próprios caracteres. Neste artigo, você conhecerá 9 ótimas ferramentas de OCR gratuitas e de código aberto para Linux.
Software OCR
O ambiente de escritório ainda é bastante solicitante do uso de papel. As coisas mudaram nos últimos anos, com uma mudança acentuada no conceito de escritório sem papel, mas ainda há uma demanda grande do uso desse material. Os documentos em papel contêm uma riqueza de dados e informações de gestão importantes que seriam melhor armazenados eletronicamente. Existe um software de computador que torna possível essa conversão.
A vantagem de digitalizar documentos não é apenas por motivos de arquivamento. A tecnologia OCR é vital para obter acesso a informações em papel, bem como para integrar essas informações em fluxos de trabalho digitais.
O software OCR não é popular, portanto, as alternativas de código aberto ao software proprietário pesado são bastante escassas. As coisas também são complicadas pelo fato de que o software de OCR precisa de algoritmos muito sofisticados para traduzir a imagem do texto em texto real preciso. O software também tem que lidar com imagens que contêm muito mais que texto, como layouts, imagens, gráficos, tabelas, em páginas únicas ou múltiplas.
A escolha da melhor ferramenta
A seleção da ferramenta de OCR certa depende de necessidades específicas. Para alguns, os serviços de OCR online podem ser úteis, mas existem questões de privacidade e limitações de tamanho de arquivo. Este artigo se concentra em software de OCR de código aberto para desktop que oferece boa precisão de reconhecimento e formatos de arquivo. A lista foi elaborada pelo pessoal do Linux Links e encontra-se abaixo.
Ferramentas de OCR
- OCRmyPDF: Uma ferramenta que adiciona uma camada de texto OCR a PDFs digitalizados usando o utilitário unpaper;
- Paperwork: Simplifique o gerenciamento de sua papelada;
- OCRFeeder: Conjunto de OCR para desktop com interface gráfica de usuário GTK completa;
- Ocropy: Análise de documentos de código aberto e sistema OCR;
- GImageReader: Front-end Gtk/Qt simples para Tesseract;
- Gscan2pdf: GUI para produzir PDFs ou DjVus a partir de documentos digitalizados;
- Lios: solução linux-intelligent-ocr para converter impressão em texto;
- Hocr-tools: Uma ferramenta para manipular e avaliar o formato hOCR;
- GOCR: Lê imagens em vários formatos.
[ad_2]
Source link