MPEG-7 со всех сторон

Опубликовано в журнале "Компьютер Price" http://www.comprice.ru/

Михаил Шахов <Mike_di@mail.ru>

Что же представляет собой новый формат и в чем его отличие от предыдущих версий? В процессе разработки темы в Сети на глаза попадаются самые разные слухи - ибо непроверенная и "жареная" информация интернет-общественностью, особенно широкой, порождается легче, воспроизводится лучше и живет дольше. Особенно дикие слухи бродят по форумам англоязычной части Интернета: некоторые из участников утверждают, что седьмая версия формата MPEG будет... сжимать видеоданные в семь раз лучше, чем MPEG-4. Естественно, это - не более чем миф, причем - миф достаточно наивный. Новый стандарт вообще не вносит никаких изменений в формат сжатия и хранения видео, ограничивая свою деятельность описанием содержимого файла.

Что в имени тебе моем?

В первую очередь меня интересовал ответ на вопрос: почему, собственно, семь? Нумерация стандартов от Moving Picture Experts Group (экспертной группы кинематографии) ранее всегда шла по порядку: от забытого MPEG-1 до уже упомянутого здесь современного и широко распространенного MPEG-4. Оказалось, что в Cети бытуют самые разные версии происхождения названия стандарта. Наиболее вероятным объяснением "скачка" нумерации мне лично представляется следующее, данное Питером Смайзом (Peter Symes), из World Broadcast Engineering, еще в мае 2001:

"Как упоминалось ранее, отмена MPEG-3* привела к получению последовательности стандартов MPEG-1, MPEG-2 и MPEG-4. Наиболее прагматичные представители экспертной группы ожидали, что следующим будет MPEG-5, а некоторые индивидуумы узрели историческое 1-2-4 как начало предопределенной двоичной последовательности и предлагали следующий стандарт назвать MPEG-8. Однако в связи с тем, что любая простая последовательность нумерации не смогла бы в достаточной мере продемонстрировать фундаментальную разницу между предыдущими стандартами MPEG и стандартом новым, в качестве рабочего было принято название MPEG-7".

Между тем, официально новый стандарт называется "Multimedia Content Description Interface" (интерфейс описания мультимедиа-данных), и, соответственно, не является продолжением MPEG как такового.

Отличный формат! От других

Что же представляет собой новый формат и в чем его отличие от предыдущих версий?

В процессе разработки темы в сети на глаза попадаются самые разные слухи - ибо непроверенная и "жареная" информация интернет-общественностью, особенно широкой, порождается легче, воспроизводится лучше и живет дольше. Особенно дикие слухи бродят по форумам англоязычной части Интернета: некоторые из участников утверждают, что седьмая версия формата MPEG будет... сжимать видеоданные в семь раз лучше, чем MPEG-4. Естественно, это - не более чем миф, причем - миф достаточно наивный. Новый стандарт вообще не вносит никаких изменений в формат сжатия и хранения видео, ограничивая свою деятельность описанием содержимого файла. Надо сказать, что в рамках нового стандарта описываться будут не только видео, но и звуковые и графические файлы; по своей концепции "контейнерная" и универсальная структура формата напоминает модный теперь XML.

Зачем нам это надо?

Чем обусловлена необходимость создания формата описания мультимедийных данных? Или, говоря языком человеческим, для чего нам может пригодиться новый формат?

Дело в том, что объем информации, накопленной на данный момент человечеством и размещенный как в Интернете, так и в более консервативной форме - будь то библиотеки, картинные галереи или собрание Госфильмофонда - откровенно избыточен. Даже найти что-нибудь по каталогу библиотеки без специальных знаний (как бы ни был смешон библиотечный техникум в анкетной графе "Образование") - задача из разряда двенадцати подвигов Геракла. Вообще, ситуация с розыском информации, описываемая словами "где-то мне это попадалось", сильно напоминает историю про конюшни царя Авгия. И это - если мы говорим только о текстовой, сравнительно несложно индексируемой информации. В Интернете поиск ее занимает не так уж много времени хотя бы потому, что объем разыскиваемого файла, как правило, не запределен: ткни ссылку, посмотри: то ли? Нет - так вернись и попробуй еще раз. А если мы разыскиваем не текст?

Как известно, в Интернете хранится великое множество аудиоклипов, фотографий, графики, мультипликации и видеоматериала. Поиск материала в такого рода мультимедийном пространстве удобнее было бы вести не по текстовым, а по мультимедийным ключам. Например, получить интересующую аудиозапись, напев основной мотив в микрофон компьютера, или заказать информацию об архитектурном памятнике, введя в поисковую машину его фотографию. Конечно, на практике такие чудеса пока невозможны - хотя бы потому, что сопоставление напетого пользователем без слуха и голоса мотивчика "взвейтесь кострами, синие ночи" с фрагментом этого же произведения, исполненного мэтрами советской эстрады, потребует неоправданно больших вычислительных ресурсов. Но это - пока, а перспективная технология, как известно, всегда рассчитывается с поправкой на день завтрашний.

На Западе проблема поиска и отбора информации стоит сейчас и в телевидении. Сегодня только самого фанатичного телезрителя прельстит обещанная вещателями возможность получать одновременно полтысячи каналов. Сориентироваться в таком богатстве практически невозможно, и электронный гид в его теперешнем виде не позволяет полностью решить эту проблему. Не случайно сразу несколько компаний ведут сейчас работы по созданию систем персонифицированного ТВ. Такие системы позволят отфильтровывать из общего потока передачи, интересующие конкретного абонента. Критерии отбора могут задаваться абонентом или определяться автоматически, на основании анализа его предпочтений, проявляемых им при самостоятельном выборе передач. Работы в этом направлении требуют более детальных методов описания содержания телепрограмм.

Как раз описанием-то аудиовидеоданных и занимается в первую очередь MPEG-7. Он определяет стандартный набор дескрипторов (описаний) для различных типов мультимедиа-информации, стандартизует способ определения своих описаний и их взаимосвязи (description schemes). Для этой цели MPEG-7 вводит DDL (Description Definition Language - язык описания определений).

Основная цель применения MPEG-7 - это облегчение процесса индексирования и, соответственно, поиска мультимедиа-информации: если сейчас мы, пусть и с трудом, можем найти в Сети статью по фрагменту текста, например, с помощью поисковой машины, то в недалеком будущем с ее же помощью и благодаря новому стандарту, сможем:

- Сыграв несколько нот на клавиатуре, получить список музыкальных произведений, которые содержат такую последовательность;

- Нарисовав несколько линий на экране, получить набор рисунков, содержащих данный фрагмент;

- Определив объект (задав его форму и текстуру), получить список картин, содержащих его в той или иной форме;

- Задав тип объекта и описав траекторию его движения, получить набор видео или анимации, где встречаются похожие объекты и движения;

- Задав фрагмент голоса певца, получить список песен и видеоклипов с его участием;

- И, как всегда, кое-что еще: благодаря XML-структуре языка описаний, формат имеет практически неограниченные возможности расширения.

Как оно работает?

"Описание так же ценно, как и содержание" - заявляют в Moving Picture Experts Group. Давайте поподробнее узнаем, что в MPEG понимают под этим тезисом.

В разделе "Описания в формате MPEG-7" обзора стандарта MPEG-7 содержатся следующие сведения об описательных возможностях формата (в моем, вольном, но не слишком далеко отходящем от оригинала переводе):

MPEG-7 определяет новый тип кодирования, нежели другие стандарты MPEG. Он не задает тип представления или воспроизведения данных, но используется для управления ими (включая поиск, фильтрацию передач, формирование баз данных). Особое внимание уделяется интеллектуальной собственности, которая во многих формах присутствует в MPEG-7, от описания прав, относящихся к данным, описанным с помощью MPEG-7, до прав на сами эти описания.**

Инструменты описания MPEG-7 позволяют создавать описания содержимого - от низкоуровневых, таких как цвета, формы, звуковые характеристики, временные и пространственные характеристики - до высокоуровневых, таких как письменное описание данных, семантическая информация, классические "метаданные". Вот краткий перечень имеющихся в спецификации описаний.

- Информация, описывающая создание и процесс производства данных: оператор, режиссер, название, краткая характеристика фильма.

- Информация, относящаяся к использованию данных: указания на авторские права, история использования, планирование передачи (очевидно, для использования в службах "видео по запросу").

- Информация о характеристиках хранения данных: формат файла, кодировка.

- Структурная информация на пространственные, временные или пространственно-временные компоненты данных: границы сцен, сегментацию в областях, области движения объектов.

- Информация о низкоуровневых характеристиках содержания: цвете, текстурах, тембре звука, описании мелодий.

- Концептуальная информация об объектах реальности, использованных в видеоданных: типы объектов, события, взаимодействие среди объектов.

- Информация, рассказывающая о том, как наиболее эффективно использовать содержимое файла: итоги, выводы, последние изменения, пространственные и частотные характеристики и т.д..

- Информация о наборах объектов.

- Информация об использовании данных пользователем: пользовательские настройки, история использования.

Все эти описания закодированы так, чтобы их было легко использовать для поиска информации, ее отбора и так далее. Описания могут относиться к материалу, представленному в произвольном стандарте, в том числе аналоговом. Более того, одно и то же описание сможет использоваться для копий одного и того же материала, записанных в разных форматах (например, с разным пространственным и временным разрешением кадра). Среда хранения и передачи описания тоже может быть произвольной. Оно вполне может храниться и передаваться отдельно от самого материала.

Что еще?

Поиск и отбор информации - это, конечно, хорошо. Но на революцию как-то не тянет. Впрочем, MPEG-7 теоретически позволяет совершать и кое-какие другие фокусы. Теоретически, стандарт будет включать механизмы преобразования описаний из одной формы представления в другую. Например, речь будет преобразовываться в текст, изображение в речь, живое видео в анимацию и т.д. Это обеспечит универсальность создаваемых описаний, то есть позволит разным базам описаний взаимодействовать с разными поисковыми машинами, а также передавать описательную информацию по любым каналам связи.

Когда?

В принципе, уже. Группа ведущих японских hi-tech компаний (Pioneer, Ricoh, Toshiba, Hitachi, NTT DoCoMo) давно предпринимает активные шаги по продвижению MPEG-7.

На недавнем симпозиуме Ricoh продемонстрировала утилиты, способные автоматически генерировать разметку MPEG-7 для цифровых фильмов, Pioneer представила кодеки MPEG-7, позволяющие пользователям редактировать содержащееся в нем видео, Toshiba и Hitachi показали технологии, которые позволяют принимать видео, а NTT DoCoMo продемонстрировала сервис для распространения видео, кодированного с помощью MPEG-7.

Так что не исключено, что найти фильм "Шрек" по мультимедийному запросу, составленному из выступления депутата Шандыбина и зеленой текстуры мы сможем в самое ближайшее время.

Ссылки:

http://mpeg.telecomitalialab.com/documents/from_mpeg-1_to_mpeg-21.htm

http://mpeg.telecomitalialab.com/standards/mpeg-7/mpeg-7.htm

http://www.ixbt.com/multimedia/mpeg4all.html

http://www.3dnews.ru/

*По утверждению сайта IXBT.ru, MPEG-3 - ненужный формат. Он был разработан для HDTV (Home Digital TV) приложений с параметрами - максимальное разрешение (1920*1080*30), скорость 20 - 40 Mbps. Так как формат не давал принципиальных улучшений по сравнению с MPEG-2 (да и к тому же MPEG-2 к тому времени стал широко использоваться в разных вариантах, в том числе и для HDTV), то он благополучно вымер.

** Согласно все тем же слухам, в формате, из самых лучших, естественно, побуждений, предусмотрена возможность для защиты авторских прав владельца информации. К сожалению, механизм защиты авторских прав пока не получил огласки. Тем не менее, в вышеприведенной, восьмой версии обзора стандарта MPEG-7, размещенной на сайте экспертной группы кинематографии (http://mpeg.telecomitalialab.com/), слово "Copyright" встречается трижды, и каждый раз во вполне нейтральном контексте. Таким образом, неприятная и сопряженная с массой неудобств технология защиты информации от нелицензионного копирования, схожая с той, что сложилась на рынке DVD - носителей, пользователям MPEG-7 на данный момент не грозит.