СофтХабрахабр

Электронные книги и их форматы: говорим про EPUB — его историю, плюсы и минусы

Ранее в блоге мы писали о том, как появились форматы электронных книг DjVu и FB2.

Тема сегодняшней статьи — EPUB.


Изображение: Nathan Oakley / CC BY

История формата

В 90-е на рынке электронных книг господствовали проприетарные решения. И у многих производителей читалок был собственный формат. К примеру, в NuvoMedia использовали файлы с расширением .rb. Это были контейнеры с HTML-файлом и файлом .info, содержащем метаданные. Такое положение вещей усложняло работу издателей — им приходилось верстать книги под каждый формат по-отдельности. Исправить положение вещей взялась группа инженеров из Microsoft, уже упомянутой NuvoMedia и SoftBook Press.

Можно сказать, что создание нового формата являлось частью бизнес-стратегии ИТ-гиганта. В то время Microsoft собиралась завоевывать рынок электронных книг и занималась разработкой приложения-читалки для Windows 95.

Если говорить о NuvoMedia, то эта компания считается производителем первой массовой электронной читалки Rocket eBook. Внутренняя память устройства составляла всего восемь мегабайт, а время автономной работы не превышало 40 часов. Что касается SoftBook Press, они также занимались разработкой электронных читалок. Но их девайсы имели отличительную особенность — встроенный модем — он позволял скачивать цифровую литературу напрямую из магазина SoftBookstore.

Эта организация еще несколько лет занималась продажей ридеров (например, RCA REB 1100) и цифровых книг, однако в 2003 году вышла из бизнеса. В начале нулевых обе компании — NuvoMedia и SoftBook — были куплены медиакомпанией Gemstar и объединены в Gemstar eBook Group.

В 1999 году Microsoft, NuvoMedia и SoftBook Press основали организацию Open eBook Forum, в составе которой стали работать над черновиком документа, положившим начало EPUB. Но вернемся к разработке единого стандарта. Он позволил распространять цифровую публикацию в одном файле (ZIP-архиве) и упростил перенос книг между различными аппаратными платформами. Изначально стандарт назывался OEBPS (расшифровывается как Open EBook Publication Structure).

Все вместе они продолжили разработку OEBPS и занимались развитием экосистемы цифровой литературы в целом. Позже к Open eBook Forum присоединились ИТ-компании Adobe, IBM, HP, Nokia, Xerox и издатели McGraw Hill и Time Warner. В 2005 году организацию переименовали в Международный форум по цифровым публикациям, или IDPF.

Её представили широкой публике в 2010 году. В 2007 году IDPF сменили название формата OEBPS на EPUB и начали разработку его второй версии. Новинка почти не отличалась от своего предшественника, однако получила поддержку векторной графики и встроенных шрифтов.

Форматом уже пользовались O’Reilly и Cisco Press, плюс его поддерживали устройства Apple, Sony, Barnes & Noble, ONYX BOOX. К этому времени EPUB завоевывал рынок и стал стандартом по умолчанию для многих издателей и производителей электронных гаджетов.

В 2009 году проект Google Books объявил о поддержке EPUB — его использовали для распространения более миллиона бесплатных книг. Популярность формат начал приобретать и у писателей. В 2011 году Джоан Роулинг рассказала о планах запустить сайт Pottermore и сделать его единственной точкой продаж книг Поттерианы в цифровом виде.

Все книги в онлайн-магазине писательницы до сих пор доступны только в этом в формате. Стандартом для распространения литературы был выбран EPUB, в первую очередь из-за его возможности реализовать защиту от копирования (DRM).

Разработчики добавили возможность работать с аудио- и видеофайлами и сносками. Третья версия формата EPUB вышла в 2011 году. Сегодня стандарт продолжает развиваться — в 2017 году IDPF даже вошла в состав консорциума W3C, который внедряет технологические стандарты для Всемирной паутины.

Как устроен EPUB

Книга в формате EPUB представляет собой ZIP-архив. В нем хранится текст публикации в виде XHTML- или HTML-страниц или файлов PDF. Также в архиве лежит медиаконтент (аудио, видео или изображения), шрифты и метаданные. Еще в нем могут находиться дополнительные файлы со стилями CSS или PLS-документы с информацией для сервисов генерации речи.

Фрагмент книги со встроенной аудиозаписью и изображением может выглядеть следующим образом: За отображение контента отвечает XML-разметка.

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:epub="http://www.idpf.org/2007/ops" xmlns:ev="http://www.w3.org/2001/xml-events" epub:prefix="media: http://idpf.org/epub/vocab/media/#"> <head> <meta charset="utf-8" /> <link rel="stylesheet" type="text/css" href="../css/shared-culture.css" /> </head> <body> <section class="base"> <h1>the entire transcript</h1> <audio id="bgsound" epub:type="media:soundtrack media:background" src="../audio/asharedculture_soundtrack.mp3" autoplay="" loop=""> <div class="errmsg"> <p>Your Reading System does not support (this) audio</p> </div> </audio> <p>What does it mean to be human if we don't have a shared culture? What does a shared culture mean if we can't share it? It's only in the last 100, or 150 years or so, that we started tightly restricting how that culture gets used.</p> <img class="left" src="../images/326261902_3fa36f548d.jpg" alt="child against a wall" /> </section> </body>
</html>

Помимо контентных файлов в архиве находится специальный навигационный документ (Navigation Document). Он описывает расположение текста и изображений в книге. Приложения-ридеры обращаются к нему в том случае, если читатель желает «перескочить» через несколько страниц.

Он включает в себя метаданные — информацию об авторе, издателе, языке, названии и так далее. Еще один обязательный файл в архиве — package. Пример package-документа можно посмотреть в репозитории IDPF на GitHub. Туда же входит перечень (spine) подразделов книги.

Достоинства

Преимущество формата — его гибкость. EPUB позволяет создавать динамическую разметку документа, адаптирующуюся под размеры экрана устройства. Это одна из главных причин, почему формат поддерживает большое количество читалок (и других электронных устройств). К примеру, с EPUB работают «из коробки» все ридеры ONYX BOOX: от базовой и 6-дюймовой Caesar 3 до премиальной и 9,7-дюймовой Euclid.


/ ONYX BOOX Caesar 3

Также EPUB поддерживает интерактивные элементы. Так как формат построен на основе популярных стандартов (XML), его легко конвертировать для чтения в интернете. В случае с EPUB они добавляются в книгу разметкой и тегами XML в любом текстовом редакторе. Да, подобные элементы они есть и в PDF, однако добавить их в PDF-документ можно только c помощью проприетарного программного обеспечения.

Стандарт дает модифицировать отображение текста на экране — например, подсветить определённые буквосочетания. Другим достоинством EPUB являются функции для людей, испытывающих проблемы со зрением или страдающих дислексией.

Еще EPUB, как мы уже отметили, дает издателю возможность установить защиту от копирования. При желании продавцы электронных книг могут использовать свои механизмы, ограничивающие доступ к документу. Для этого нужно модифицировать файл rights.xml в архиве.

Недостатки

Для создания EPUB-публикации необходимо разбираться в синтаксисе XML, XHTML и CSS. При этом приходится работать с большим количеством меток-идентификаторов. Для сравнения, тот же стандарт FB2 включает в себя лишь минимально необходимый набор тегов — достаточный для верстки художественной литературы. А для создания PDF-документов вообще не требуются особые знания — за все отвечает специализированное ПО.

В этом случае издателю приходится создавать статичный макет с фиксированными координатами для каждой картинки — на это может уходить много сил и времени. Также EPUB критикуют за сложность оформления комиксов и других книг со множеством иллюстраций.

Что дальше

Сейчас IDPF работает над новыми спецификациями для формата. Например, одна из них поможет создавать интерактивные учебные пособия со скрытыми разделами. Одна и та же книга будет по-разному выглядеть для преподавателя и студента — во втором случае окажутся скрыты, например, ответы на тесты или контрольные вопросы.


Изображение: Guian Bolisay / CC BY-SA

Сегодня EPUB довольно активно используется крупными вузами, например Оксфордским университетом. Ожидается, что новая функция поможет реорганизовать образовательный процесс. 0. Несколько лет назад они добавили в свое приложение с цифровой библиотекой поддержку EPUB 3.

Также IDPF создает спецификацию для внедрения в EPUB сносок Open Annotation. Этот стандарт разработали в W3C в 2013 году — он упрощает работу со сложными видами аннотаций. Например, с его помощью можно поставить примечание к определенному участку JPEG-изображения. Дополнительно стандарт реализует механизм синхронизации изменений в аннотациях между копиями одного EPUB-документа. Примечания формата Open Annotation можно добавлять в EPUB-файлы и сейчас, однако формальная спецификация для них пока не принята.

2. Также ведется работа над новой версией стандарта — EPUB 3. 0 и SFNT, которые используются для сжатия шрифтов (в некоторых случаях они позволяют сократить размеры файла на 30%). В ней появятся форматы WOFF 2. Например, вместо отдельного элемента trigger для активации аудио- и видеофайлов в новом стандарте будут нативные HTML-элементы audio и video. Также разработчики заменят некоторые устаревшие атрибуты HTML.

Черновик спецификации и список изменений уже доступны в GitHub-репозитории W3C.

Обзоры читалок ONYX-BOOX:

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть