21.05.2022

Выпуск системы распознавания текста GNU Ocrad 0.28

После трёх лет с момента прошлого выпуска сформирован релиз системы распознавания текста Ocrad 0.28 (Optical Character Recognition), развиваемой под эгидой проекта GNU. Ocrad может применяться как в форме библиотеки для интеграции функций OCR в другие приложения, так и в форме обособленной утилиты, которая на основе переданного на вход изображения выдаёт текст в UTF-8 или 8-битных кодировках.

Для оптического распознавания в Ocrad используется метод выделение признаков (feature extraction). В состав входит анализатор макета страницы, позволяющий корректно разделять столбцы и блоки текста в печатных документах. Распознавание поддерживается только для символов из кодировок «ascii», «iso-8859-9» и «iso-8859-15» (поддержка кириллицы отсутствует).

Отмечается, что в новый выпуск включена большая порция мелких исправлений и улучшений. Наиболее значительным изменением стала поддержка формата изображений PNG, реализованного при помощи библиотеки libpng, что значительно упростило работу с программой, так как ранее на вход могли подаваться только изображения в форматах PNM.

Источник.