DjVu - формат для создания радиолюбительских электронных библиотек


1. Предисловие

За последние пять лет Интернет стал общепризнанным каналом распространения разнообразной текстовой и графической информации. Электронные газеты и журналы стали столь же обычными как и традиционные. Многие издания выходят в электронном виде раньше, чем на бумаге. Этому способствует повсеместное внедрение верстки на компьютере и использование формата PDF фирмы Adobe, ставшего стандартом "де-факто" для распространения электронных публикаций, в том числе и радиолюбительских - радиосхем, справочных таблиц и т.п.

Архивация графических файлов с возможностью последующей их пересылки по Сети используется как альтернатива PDF формату. Однако любая закачка архивных файлов графики, особенно технических - это кот в мешке. Прежде, чем этот файл можно просмотреть - его необходимо скачать! До разархивации файла нельзя наверняка сказать - это то, что было необходимо, или же это совершенно другой файл. Может не устроить качество изображения или полнота материала, не говоря уже об объеме и потраченном времени на скачивание.

Каждый, кому часто приходилось сканировать черно-белые схемы и пересылать их через Интернет, наверное, обращал внимание на относительно низкий коэффициент сжатия информации для файлов с подобными изображениями. И вот, наконец-таки эта проблема решена.

Новый графический формат DjVu (произносится "Дежавю"), разработанный фирмой AT&T, в первую очередь предназначен для размещения в Интернет отсканированных изображений. Это могут быть справочные книги, рукописи, принципиальные схемы телевизоров, радиоприемников, усилителей и других устройств.

Технологию DjVu обеспечивает для файлов с черно-белыми монохромными изображениями сжатие порядка 500:1. Выигрыш в размере файла по сравнению с форматом GIF составляет в среднем 20 раз. Суть технологии DjVu заключается в автоматическом разбиении изображения на несколько участков (например, текст, логотип фирмы и растровая фотография), для каждого из которых выбирается оптимальный для данного графического образа алгоритм сжатия. Право на коммерческое использование технологии DjVu продано компании LizardTech.

Новая технология сжатия позволит решить проблему публикации в Интернете радиосхем, чертежей, графиков, которые раньше имели слишком большое время загрузки. Для того чтобы иметь возможность просматривать радиосхемы в новом формате, необходимо установить специальный plug-in, который имеет размер немногим меньше девятисот килобайт. При этом сделан он очень интересно. Дело в том, что, в отличие от обычных программ-просмотрщиков, DjVu не расшифровывает сжатый файл полностью, а только ту его часть, которую в данный момент демонстрирует. Это позволяет просматривать файлы огромного размера и разрешения даже на очень слабых компьютерах.

Демонстрировать эти схемы plug-in может постепенно - по мере скачивания: в течение пары секунд можно полностью увидеть макет страницы, еще через пару секунд можно прочитать текст, а подождав еще чуть-чуть - появляются картинки.

Конечно, web-сервер и так имеет то же самое - сначала текст, потом постепенно картинки, но то, что мы увидим с помощью DjVu - это полностью графика, а не комбинация распознанного текста и картинок!

Формат DjVu позволяет быстро просмотреть материал в открытом виде, и уже потом решить, стоит ли его сохранять. Сразу можно оценить содержание материала, ограничившись просто его просмотром, не сохраняя файл на своем компьютере. Если учесть, что страница черно-белой графики с текстом формата А4 занимает в формате DjVu около 30 кб, а в цвете около 60 кб, то становится ясной экономия времени и денег.

Если же сравнить DjVu с популярным PDF форматом, то и здесь есть преимущества - обычно у пользователей установлен только Acrobat Reader. Загрузка файла для в Reader возможна только для просмотра, без его сохранения. Имеется возможность "сохранить объект как...", но просмотреть файл можно только после полного скачивания, что не очень удобно. В DjVu это совмещено - при использовании бесплатного plag-in'а (его размер - 656 кб) к броузеру http://dejavu.research.att.com можно сначала посмотреть файл, а уже потом, щелкнув правой кнопкой мыши, сохранить его при надобности. Использование формата DjVu - это экономия при достаточном качестве.

Для примера приводим схему изменений в радиоле "Мир" по сравнению с радиоприемником "Мир" в формате DjVu. Статистика такова:

Достаточно объективная оценка качества по сравнению с уже известными форматами показывает, что незначительное ухудшение качества на цветных изображениях полностью окупается степенью сжатия, а на черно-белых изображениях вообще не заметно.

Возможные конкуренты в виде tiff, gif, jpg сильно проигрывают в объеме. Думается, что в ближайшие годы этот способ займет достойное место в Интернет. Радиолюбители могут смело его применять для пересылки схем, фотографий и всего прочего, при существенной экономии времени и денег.

Желающие скачать plag-in и другие программы для использования DjVu могут найти их по таким адресам:

 
2. Электронная печать и традиционная полиграфия - AT&T DjVu

Корпорация AT&T продвигает идею "электронной бумаги" и разработала собственный формат хранения виртуальных документов - DjVu. В отличие от PDF, DjVu - формат чисто растровый, такой же, как и хорошо известные GIF и JPEG.

Как и JPEG, DjVu упаковывает графические данные с некоторой потерей информации, однако качество изображения при этом снижается не столь значительно, а показатель сжатия может составлять до 300:1. Компрессор DjVu отделяет текстовые области от полутоновой графики и применяет в первом случае алгоритм BZ2, ориентированный на двухуровневый сигнал, во втором - волновое преобразование (wavelet transform), хорошо подходящее для фотоизображений. Таким образом, DjVu перекрывает по показателям не только старый добрый JPEG, но и значительно более продвинутый формат WIF, разработанный фирмой Compression Engines.

В общем и целом DjVu - это великолепная технология хранения больших отсканированных изображений. Для создания архива или хранилища схем лучше DjVu, пожалуй, ничего и придумать нельзя. Правда, только в том случае, когда к сканируемому тексту невозможно или нецелесообразно применять алгоритмы распознавания. Впрочем, используя соответствующий софт из DjVu можно получать полноценное графическое изображение в формате, например, BMP и потом уже его распознать.

DjVu позиционируется как конкурент PDF и пропагандируется, к примеру, для публикации научных статей на WEB. В данном контексте технология DjVu работает гораздо хуже: невозможность скопировать хотя бы малый фрагмент текста сильно связывает руки читателю. Кроме того, качество отрисовки букв в DjVu заметно ниже, чем в PDF, а это быстро и сильно утомляет зрение и вновь вынуждает прибегать к печати.

Однако и это положение довольно спорное! Перекачав по Сети сравнительно небольшой файл в формате DjVu, его можно преобразовать в BMP, GIF, JPEG и нарезать из них, например в ADOBE PHOTOSHOP, столько графических фрагментов с текстом, сколько потребуется! Что же касается радиосхем, то, как правило, этого вообще не требуется. Схема рабдиолюбителю нужна целиком. Возможность просмотра в броузере на локальном диске (в том числе и на CD) вообще делает этот формат незаменимым для создания электронной библиотеки!

Теоретическая основа формата просто поражает. Чего стоит один метод вейвлетовых преобразований для сжатия графики или разделение картинок на слои для уменьшения размеров файла. Из-за прогрессивных возможностей сжатия данных и онлайнового декодирования содержимого многие аналитики прогнозируют, что в будущем данная технология заменит HTML (пока он лишь plag-in, надстройка). Теоретически сайт на базе Djvu будет намного меньше сегодняшних аналогов, даже если те используют только форматированный текст, лишенный графики.

Данный формат незаменим для публикации огромных пакетов документации в Интернете или хранения информации на домашнем винчестере. Он является также прекрасным решением для публикации Интернет-журналов. Особенно хорош этот формат для радиолюбителей!

 
3. Архиватор Интернет

Идея переноса документов из книг и журналов на просторы Сети не так уж нова. Но задумайтесь, сколько занимает отсканированный документ, сохраненный в формате TIFF (этот формат не искажает графические данные и передает их с достоверной точностью). В среднем файл с качеством порядка 300 dpi может занимать до 25-30 Мб. Если сканировать с меньшим качеством, т.е. примерно в 100 dpi, то теряется наглядность. Так что TIFF отпадает, как носитель информации он неэкономичен.

Поэтому самым распространенным форматом сохранения растровых данных в Интернете стал JPEG. Этот формат позволяет достаточно прогрессивно сжимать данные. Сравните: 25 Мб у TIFF и 600 кб JPEG. Такой размер более или менее подходит для транспортировки по Сети в условиях хорошего и стабильного коннекта. Единственная проблема: удерживание приемлемого качества изображения - система компрессии данных приводит к потере информации, которую считает "лишней". Мы видим ужасные искажения, резкие цветовые переходы размыты, о первоначальном качестве можно забыть - JPEG отпадает как формат для сохранения документации в Сети.

Многие пророчили большое будущее детищу Adobe под названием PDF. В настоящее время большинство компаний выкладывает документацию о своих продуктах именно в этом формате. Успеху способствует использование объектов ActiveX, позволяющих запускать Acrobat Reader прямо в окне Internet Explorer. К сожалению, PDF также излишне прожорлив: средний размер файла зачастую превышает 100 кб.

Менее признанным, а значит, менее популярным является формат сжатия данных для факсимильных аппаратов. Он позволяет неплохо сжимать данные, хотя и с заметными потерями в качестве. Правда, от факсов никогда не требовалось идеального совпадения с оригиналом.
Исходя из вышеперечисленных факторов, компания AT&T решила создать нечто новое, способное произвести революцию на ниве публикации в Интернете. Так, был создан формат DjVu, сжимающий информацию в восемь раз эффективнее, чем JPEG. Качество же картинки почти не изменяется. Цветная страница из журнала, отсканированная при 300 dpi, имеет размер всего 20-79 кб. Черно-белое изображение может вообще опуститься до планки в 10 кб. Безусловно, на настоящий момент DjVu является самым совершенным компрессионным форматом.

Основная идея формата, вокруг которой и нарастали остальные возможности, зиждется на том понятии, что текст и картинки не являются равнозначными составляющими документа. Для текста существует большое количество компрессионных методов, причем процент сжатия информация довольно велик. Но, к сожалению, данные методы не могут архивировать графику.

В DjVu применяется специальная технология, отделяющая от сканированного образа весь текст и сжимающая его, сохраняя первоначальное качество. Картинки же переводятся в 100 dpi и подвергаются сжатию по технике вейвлетов (очень популярный ныне метод, использующийся для он-лайновой декомпрессии данных). Дополнительно происходит обработка фоновых частей образа - так удается исключить из конечного файла фрагменты изображения, которые просто не видны (к примеру, стоят за картинками или за текстом).

Каждая картинка поддается некоторым преобразованиям, призванным сократить размер файла. Прежде всего, она разделяется на несколько слоев, из которых можно затем ее реконструировать. А чаще всего деление происходит на подложку, маску и передний план. Для этого используется довольно простой алгоритм: растровый файл просматривается пиксель за пикселем. Все светлые точки автоматически причисляются к фону, темные - к маске или переднему плану. Все пиксели, выводимые на экран, получают цвет на базе логических вычислений, построенных на значениях соответствующих цветов из всех слоев. Такое разделение помогает наиболее эффективно сжимать графику. Маска, имеющая обычно всего один цвет, архивируется по методу сжатия документов факсимильных аппаратов, называемому JB2. Идея такого разделения не нова, впервые ее предложила корпорация Xerox, использующая подобный подход при создании формата XIFF.

Уникальной особенностью формата DjVu является чрезвычайная компактность при хранении изображений в высоком разрешении (300 dpi и выше). На одной дискете можно разместить до двадцати страниц пригодных для распечатывания на лазерном принтере. Кроме того, этот формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать еще до завершения скачивания. Таким образом DjVu является уникальным инструментом для открытия Интернет-доступа к радиолюбительским материалам, в первую очередь радиосхемам и справочникам.

Отдельно следует упомянуть законность публикации на сайте отсканированного текста. Скорее всего, юридическое решение проблемы еще является делом будущего.

 
4. DjVu - основные достоинства

В основе формата DjVu лежат несколько технологий разработанных в AT&T Labs. Это: алгоритм отделения текста от фона на отсканированном изображении, вейвлетный алгоритм сжатия фона IW44, мощный алгоритм сжатия черно-белых изображений JB2, эффективный универсальный алгоритм сжатия ZP, алгоритм распаковки "по запросу", алгоритм "маскировки" изображений. Первые четыре алгоритма обеспечивают чрезвычайно высокую степень сжатия. Типичным является преобразование TIFF файла размером 25 Мб (формат А4 отсканированный на цветном сканере 300 dpi) в DjVu файл размером 80 кб, без видимой на глаз потери качества. Для черно-белого изображения, размер DjVu файла может получиться еще меньше - примерно 30 кб. Возможно дальнейшее повышение коэффициента сжатия, вплоть до отношения 1000:1, правда потеря качества становится довольно заметной. Таким образом, на стандартную дискету 1,44 Мб можно разместить 15-20 изображений высокого качества. Дополнительно заметим, что искажения вносимые вейвлетным сжатием существенно менее заметны по сравнению с искажениями в JPEG файлах.

Алгоритмы распаковки позволяют показать часть изображения, не разворачивая всю картинку в оперативной памяти, а также легко масштабировать изображение. Это позволяет быстро просмотреть файл даже на относительно слабой машине - компьютер с процессором 486 и 16 Мб ОЗУ. Еще одной интересной особенностью алгоритмов распаковки является инкрементальное восстановление изображения. При просмотре через Интернет вначале выводится только текст, затем фон в низком разрешении и только потом фон в высоком разрешении. Это позволяет быстро оценить документ, не скачивая его полностью.

Отделение текста от фона чрезвычайно повышает его разборчивость, особенно, если текст напечатан на цветной бумаге или расположен поверх рисунка. Возможен и отдельный просмотр фона, причем алгоритм "маскировки" восстанавливает те части фона, которые были закрыты текстом.

Изображения не содержащие текста могут быть преобразованы в формат IW4, который соответствует части формата DjVu ответственной за хранение фона.

В начале 1999 года фирма AT&T объявила о дальнейшем развитии формата - DjVu 2.0. В новой версии предусмотрено объединение нескольких изображений в один файл, с возможностью "перелистывания" страниц, а также нанесения на изображение так называемых "горячих точек", участков изображения служащих гиперссылками.

Тем, кого пока не удовлетворяет формат DjVu как таковой, можно порекомендовать набраться терпения и "скачивать" оригинальное изображение, хотя вряд ли это целесообразно. Но из уважения к приверженцам традиционных методов, на нашем сайте будут присутствовать материалы в двух форматах (GIF и DjVu), за исключением тех случаев, когда исходный файл уже был в формате DjVu. При наличии соответствующего софта всегда имеется возможность "разжать" DjVu в стандартные графические форматы (BMP, например), однако, полученные файлы будут занимать объем до 30-40 Мб.

 
5. DjVu - использование

Следует помнить, что алгоритмы заложенные в DjVu оптимизированы для изображений отсканированных с высоким разрешением. Если у вас есть картинка 320x200 или 800x600 то вас вполне удовлетворит JPEG или GIF. Оптимальными для сжатия DjVu являются картинки отсканированные на 300 dpi и выше. Для рисунков отсканированных на 100-200 dpi предусмотрен режим предварительного растягивания со сглаживанием для повышения качества результирующего изображения. Также необходимо заметить, что процесс сжатия, в противоположность к воспроизведению, достаточно критичен к свободной оперативной памяти. 32 Мб ОЗУ это минимум необходимый для работы. Фирменные руководства рекомендуют 64 Мб.

 
6. DjVu - доступность программ

Для того, чтобы воспользоваться преимуществами нового формата необходимо иметь две вещи: утилиту сжатия для издателя и утилиту просмотра для читателя.

Как принято в последние годы, утилиты просмотра DjVu распространяются совершенно бесплатно. Для тех, кто использует Windows 95/98/NT, предлагается два продукта:

Plag-in для веб-броузеров распространяемый фирмой AT&T. Данный plag-in совместим с Microsoft IE вер. 4.0 и выше, Netscape Navigator вер. 4.0 и выше и Opera вер. 3.26 и выше. Инсталляционный файл называется npdjvu.exe и имеет размер примерно 600 кб.

Программа DjVuer для работы с DjVu файлами от фирмы Feith Systems and Software Inc. Инсталляционный файл называется DjVuerin.exe и имеет размер примерно 2.5 Мб.

 
7. DjVu - инсталляция программы просмотра в Windows-95/98

Для инсталляции DjVu plag-in для веб броузера в Windows-95/98/NT необходимо скачать и запустить файл npdjvu.exe Программа инсталлятор проводит поиск известных ей броузеров по всем дискам компьютера. После завершения поиска выдается список всех обнаруженных броузеров и предлагается выбрать к каким из них нужно доустановить DjVu plag-in. Перед завершением инсталляции необходимо закрыть выбранные броузеры для гарантии корректной установки. Надо перезагрузиться. По завершении установки можно сходить на http://djvu.att.com и посмотреть небольшую электронную библиотеку в формате DjVu.

После загрузки Djvu-сайта стартует plag-in. Внешне он очень похож на Acrobat Reader, сходство касается даже рисунков на кнопках. В самом начале панели находятся меню выбора типа вывода - можно выводить текст только черно-белым или только фон; следующее меню отвечает за размер документа на экране. Рядом расположены кнопки Zoom In, Zoom Out, затем - панель контроллера, управляющего переключением между страницами и перемоткой взад и вперед (т.е. от корешка до корешка).
Скроллинг осуществляется "ладошкой". При этом страница не мигает - двигаться по документу легко и удобно. При увеличении картинки качество почти не страдает, особенно если дело касается текста. Графические изображения внутри документа могут быть довольно большими, но благодаря системам сжатия занимают относительно мало места. Правда, качество может заметно страдать.

В целом впечатления от нового формата самые хорошие, особенно, учитывая быстроту загрузки. К сожалению, функции сохранения текста из документа нет, возможна лишь одна операция - чтение. Не существует и функции копирования в буфер обмена. Зато можно сохранить картинку в файл и распознать ее программой для распознавания символов (OCR), чтобы затем прочесть текст в Word.

Возможно, это один из немногих недостатков формата DjVu, который, однако, не умаляет его достоинств.

Plag-in управляется и настраивается через контекстное меню. Первые пункты отвечают исключительно за вывод изображения и за навигацию по документу. Save as сохраняет файл на диске (он имеет расширение djv или djvu). Print - печатает. Page Information выводит окошко с ключевыми параметрами файла: размер фона, маски, верхних слоев, а также текста, последнее значение таблицы указывает величину диапазона сжатия данных. Основные опции программы настраиваются через пункт Preferences. Правда, параметров достаточно мало, среди них яркость картинки, горячая клавиша для вывода гиперссылок, размер буфера декодирования (полезен для слабых машин).

Мы хотим отметить огромный вклад в популяризацию этого формата Николая Сухова - главного редактора журнала "Радиохобби" (http://radiohobby.da.ru), с легкой руки которого файлы формата DjVu стали разлетаться по рускоязычному Интернету, а также Игоря (UN7GM) un7gm@qsl.net, чьи "Комментарии к формату DjVu" мы использовали при подготовке этого материала.
 

 
Главная страница    Общие сведения    Список аппаратуры    Радиолампы    Клуб