02.07.2022

Представлен Unredacter, инструмент для определения пикселизированного текста

Представлен инструментарий Unredacter, позволяющий восстановить изначальный текст, после его скрытия с применением фильтров на основе пикселизации. Например, программа может использоваться для определения конфиденциальных данных и паролей, пикселизированных на скриншотах или снимках документов. Утверждается, что реализованный в Unredacter алгоритм превосходит ранее доступные аналогичные утилиты, такие как Depix, и в том числе успешно использован для прохождения теста на определение пиксилизированного текста, предложенного лабораторией Jumpsec. Код программы написан на TypeScript и распространяется под лицензией GPLv3.

Для восстановления текста в Unredacter применяется метод обратного подбора, в соответствии с которым выполняется сравнение части исходного пикселизированного изображения с вариантом, синтезированным путём перебора пар символов, пикселизируемых с различными сдвигами и изменёнными характеристиками. В ходе перебора постепенно подбирается вариант, наиболее близко соответствующий исходному фрагменту. Для успешной работы требуется правильно угадать размер, тип и параметры отступов шрифта, а также вычислить размер ячейки в сетке пикселизации и позицию наложения данной сетки на текст (варианты смещения сетки перебираются автоматически).

Дополнительно можно отметить проект DepixHMM, в рамках которого подготовлен вариант утилиты Depix, переведённый на алгоритм на базе скрытой марковской модели, благодаря которому удалось добиться повышения точности воссоздания символов.

Источник.