Сделаем электронную книгу лучше

Я как и многие собрал библиотеку PDF и DjVu книг. Одни, те что уже не купишь, для коллекции, другие, окаченные на посмотреть перед покупкой, остаются чтобы лишний раз не бегать к книжной полке (я сейчас говорю про техническую литературу, тут я предпочитаю бумагу, к художественной подход другой :-)). Рассмотрим первый вариант, книга нужна вам для коллекции а в сети нет хорошей копии. Не беда попробуем исправить то что есть.

Конвертируем в TIFF

Итак мы имеем отсканированные изображение зачем то упакованные в PDF или DjVu. Первое что понадобиться это конвертировать имеющиеся изображения в более удобный для работы формат. Особых вариантов нет, нам необходим TIFF так как именно с ним работает наш главный чистильщик(смотрим ниже). Чтобы конвертировать DjVu в TIFF воспользуемся DjView и пакетом утилит DjVuLibre (экспорт -> документ TIFF или тру вариант ddjvu(.exe) -v -format=TIFF file.djvu file.tiff) работает везде в Linux, Windows, MacOSX. Теперь расскажу о том чем можно конвертировать PDF в TIFF. Для Windows это просмотрщик PDF-XChange Viewer (экспорт -> изображение -> TIFF). Для linux можно воспользоваться командой convert – convert file.pdf file.tiff (нужны пакеты libTIFF-tools и imagemagick). Для экспорта в MacOsX подойдет родной Preview.

Чистим полученные сканы

Для чистки сканов воспользуемся замечательной программой Scan Tailor. Это интерактивный инструмент для пост-обработки сканированных страниц. С помощью Scan Tailor можно разрезать страницы, компенсировать наклон, добавить/удалить поля, …

К достоинствам программы можно отнести во первых простой интерфейс и стабильную работу (так например ScanKromsator я так и не ослил). Во вторых, и это немаловажно, программа доступна под основные операционные системы. Версия под Цindows на официальном сайте проекта(в т.ч. и x64), Linux версии в основных репозитариях, есть сборки ScanTailor и для MacOSX.

Подробно расписывать работу с программой не буду, т.к. ничего сложного в работе с программой нет.

Конвертируем полученные TIFF’ы в DjVu

Дождались окончания обработки в Scan Tailor’е? Теперь полученные TIFF’ы нужно сново собрать в один файл. Я предпочитаю сжимать в DjVu (мы все равно имеем дело с изображениями а тут он лучший). Просто список программ для сжатия в DjVu, без подробностей режимов кодирования, тут поможет Google:

Программа DjVu Small v0.4.4 – это визуальная оболочка (GUI), управляющая консольными утилитами DocumenttoDjVum и DjVudecode (LizardTech Document Express Enterprise with DjVu 5.0.). Один из лучших, может работать под wine.

DjVuLibre – для систем отличных от Windows и для Windows если принципы жмут. Пример использования:

cjb2 -dpi 300 file.tiff file.djvu (для TIFF или PBM)
с44 -dpi 300 file.jpg file.djvu (для JPEG, PGM, PPM)

Что можно добавить еще?

Я обычно добавляю оглавление, делается это с помощью утилиты BookmarkTool. Потребуется создать html файл вида:

<html>
<body>
<ul>
<li><a href="#1">Link to page 1</a></li>
<li><a href="#2">Chapter 1</a>
<ul>
<li><a href="#3">Link to page 4</a></li>
</ul>
</li>
</ul>
</body>
</html>

Можно еще добавить текстовый слой, но это уже высший пилотаж. Есть люди которые освоили добавление текстового слоя в создаваемые книги, честь им и хвала за это.