
При создании какого либо документа, например того же pdf, есть вероятность что программа в этот файл запишет метаданные (Metadata). Это такие данные, которые будут храниться в этом файле, и если их извлечь, то возможно узнать когда создавался файл, в какой программе и так далее. В случае же с фотографией, сделанной как вариант на телефон, возможно даже узнать координаты, где делалась эта фотография. По метаданным вы можете многое узнать о документе или фотографии, по этому, рекомендуется удалять эти самые метаданные, если не хотите что бы они попали не в те руки. Подробней узнать о метаданных можно на WIKI. А сегодня мы рассмотрим несколько способов, как можно извлечь метаданные из файлов, найденных на просторах интернета, например, при помощи все тех же операторов Google.
Утилита Mat2 для работы с метаданными
Первой из утилит по работе с метаданными будет “Mat2”, это утилита командной строки, весьма простая в использовании, но, тем не менее может быть полезной, как для извлечения метаданных, так и для их удаления. Данная утилита написана на языке программирования Python, работает с самыми популярными документами, это офисные документы, изображения, аудио и видео файлы и так далее. Для более полной информации о Mat2 рекомендую посетить домашнюю страничку этой утилиты. Обратите внимания, что эта утилита не удаляет метаданные в самом документе, она создает копию документа, где не будет метаданных. И так, переходим к установке, установить “Mat2” можно командой:
Debian/Ubuntu
sudo apt install mat2

В остальных дистрибутивах рассматривать установку не стану, скажу лишь что в дистрибутиве Manjaro устанавливается “Mat2” из репозитория AUR:

Работа с утилитой весьма простая, сначала в терминале вводим название программы, затем указываем необходимые опции, как вариант, обратимся к справке по утилите:
mat2 -h
Или можно еще написать:
mat2 –help

Перевод опций:
- -h, –help – показать справку
- -v, –version – показать версию программы
- -l, –list – вывести список всех поддерживаемых форматов файлов
- –check-dependencies – проверить, имеются все ли необходимые для MAT2 зависимости
- -V, –verbose – показать более подробную информацию о статусе
- –unknown-members policy – как обрабатывать неизвестных членов файлов в стиле архива (в качестве политики можно указать: abort, omit, keep) По умолчанию – abort
- -s, –show – показать все метаданные, способные нанести вред, которые нашла MAT2, без их удаления
- -L, –lightweight – удалить только НЕКОТОРЫЕ метаданные
Собственно, как видите опций немного, давайте проверим как работает утилита, вводим команду на вывод метаданных:
mat2 -s
А затем указываем какой файл будем рассматривать, в моем случае это “RCS-Password-Policy.pdf”
mat2 -s RCS-Password-Policy.pdf

Как видите, тут указан автор данного файла, дата создания и какой софт использовался при создании документа. И это еще не все, в сети можно найти множество файлов, где будет намного больше метаданных. А утилита Mat2 указывает лишь те метаданные, которые могут быть крайне нежелательными в файлах. Собственно, думаю вы поняли как работать с утилитой, ну а мы переходим к следующей.
Утилита ExifTool для работы с метаданными (Metadata)
Если по какой-либо причине вам нужен более мощный инструмент по метаданным, то можете обратить внимания на ExifTool. Данная утилита работает со множеством форматов, таких как: EXIF, GPS, IPTC, XMP, JFIF, GeoTIFF, ICC Profile, Photoshop IRB, FlashPix, AFCP и ID3, Lyrics3… Чем примечательна утилита ExifTool, так это тем что это весьма мощный инструмент, имеет множество опций, поддерживает большое количество файлов, поддерживает Геотеги и многое другое. Более подробную информации вы так же можете узнать на официальном сайте утилиты. Ну а мы переходим к установке, устанавливается ExifTool командой:
Debian/Ubuntu

Manjaro
sudo pacman -S perl-image-exiftool
Что бы начать работать с ExifTool, давайте сначала заглянем в опции, которые имеются в данной утилите, а там их на все случаи жизни.
Опции с тегами:
- -TAG или –TAG Извлекает или исключает указанный тег
- -TAG[+-^]=[ЗНАЧЕНИЕ] Записывает для тега новое значение
- -TAG[+-]<=ФАЙЛ_ДАННЫХ Записывает значение тега из содержимого файла
- -TAG[+-]<SRCTAG Копирует значение тега (смотрите -tagsFromFile)
- -tagsFromFile ИСХ_ФАЙЛ Копирует значение тега из файла
- -x TAG (-exclude) Исключает указанные тег
Форматирование текста:
- -args (-argFormat) Форматировать метаданные как аргументы exiftool
- -b (-binary) Вывод метаданных в двоичном формате
- -c FMT (-coordFormat) Установит формат координат GPS
- -charset [[TYPE=]КОДИРОВКА] Указать кодировку для специальных символов
- -csv[[+]=ФАЙЛ_CSV] Экспорт/импорт тегов в формате CSV
- -d FMT (-dateFormat) Установить формат для значений даты/времени
- -D (-decimal) Показывать номера идентификаторов тегов в десятичном формате
- -E,-ex,-ec (-escape(HTML|XML|C)) Символы для экранирования выходных тегов для HTML, XML или C
- -f (-forcePrint) Принудительная печать всех указанных тегов
- -g[ЧИСЛО…] (-groupHeadings) Организовать вывод по группе тегов
- -G[ЧИСЛО…] (-groupNames) Распечатать название группы для каждого тега
- -h (-htmlFormat) Использовать форматирование HTML для вывода
- -H (-hex) Показывать номера идентификаторов тегов в шестнадцатеричном формате
Контроль обработки
- -a (-duplicates) Разрешить извлечение повторяющихся тегов
- -e (–composite) Не создавать составные теги
- -ee (-extractEmbedded) Извлечь информацию из встроенных файлов
- -ext[+] РАСШ (-extension) Обрабатывать файлы с указанным расширением
- -m (-ignoreMinorErrors) Игнорировать мелкие ошибки и предупреждения
И так далее, полный список всех опций вы можете скачать по ссылке:
.kcc_block img{ width:1.1em; height:auto; margin:0; border:0px !important; box-shadow:none !important; } .kcc_block a{ border-bottom:0; } .kcc_block a.kcc_link{ text-decoration:none; display:block; font-size:100%; line-height:2.2; } .kcc_block .kcc_desc{ color:#666; } .kcc_block .kcc_info{ font-size:80%; color:#aaa; } .kcc_block:hover a{ text-decoration:none !important; } .kcc_block .kcc-edit-link{ position:absolute; top:0; right:.2em; } .kcc_block:after{ content:»»; display:table; clear:both; }
Как уже говорилось, ExifTool имеет множество опций, и не факт что все они вам будут нужны, так же отмечу, что при установке Meta2 автоматом устанавливается и ExifTool. Для извлечения из файла метаданных утилитой ExifTool выполняем команду:
exiftool
Затем указываем название файла, из которого хотим извлечь информацию, в моем случае это все тот же “RCS-Password-Policy.pdf”
exiftool RCS-Password-Policy.pdf

И это лишь небольшая часть метаинформации, а ведь в таких документах может содержаться информация о системе и многом другом. Существуют и другие продукты для обработки и извлечения метаданных, но, как по мне, лучше изучить самые популярные инструменты, благо, по ним существует множество инструкций. Что же касается Meta2 и ExifTool, то этих двух инструментов хватит даже опытному пользователю.
Заключение
Как говорилось выше, существуют и другие инструменты по обработке метаданных, и если вам вдруг не хочется по какой-то причине устанавливать лишний софт, вы всегда можете воспользоваться онлайн ресурсами. Достаточно в поисковике набрать что-то наподобие “сайт метаданные” или “метаданные онлайн” и вам представятся сайты где вы сможете просмотреть информацию в ваших файлах. В любом случае не забывайте удалять ваши метаданные, что бы потом никто не смог пробить например на какой операционной системе вы работаете, где отдыхаете или даже где живете.
А на этом сегодня все. Надеюсь данная статья будет вам полезна.
Журнал Cyber-X