Оцифровка книг в формат djvu в linux




Введення і примітки
Оцифровка книг в формат DjVu в Linux

Відео: Як перетворити djvu в pdf


У цій статті хочу поділитися досвідом оцифровки книг в формат DjVu. Таке завдання постало переді мною в ході роботи над краєзнавчої книгою про Київ. Я задумав відсканувати і викласти в додатках до цієї книги потрапили в руки дореволюційні видання про місто. У всьому процесі оцифровки було вирішено використовувати тільки вільні технології, тому вибір припав на наступний набір програм: XSane для сканування, ImageMagick для обробки картинок, пакет DjVuLibre для відомості зображень в електронну книгу формату DjVu.

Оцифровка книг в формат DjVu в Linux
ImageMagick

Ймовірно, існують більш витончені і продуктивні способи, ніж застосований мною. До завдань входила лише автоматизація оцифровки книг, щоб на виході отримувати готовий DjVu-документ. Сканування проводилося в ландшафтній орієнтації: розрізати кожен розворот на дві сторінки не довелося, тому що вважаю, що читання книг більш природно, якщо бачиш весь розворот, а не тільки одну сторінку. Крім того, такий підхід спростив роботу: не треба було думати, як автоматично розрізати кожну картинку на дві (із зсувом кадру і ім`ям вихідних файлів). Втім, при бажанні автоматизується і це.

Оцифровка книг в формат DjVu в Linux
DjVuLibre

І останнє: оптичне розпізнавання тексту також не входило в мої плани. Тим більше, що вільні OCR-движки навряд чи впоралися б з дореволюційним правописом (втім, в комерційному світі справа йде трохи краще).

Крок перший: підготовка сканера

Відео: Відкрити PDF, FB2, DjVu і інші книги!


Отже, почнемо з налаштування сканера. У Linux вони підтримуються через SANE (Scanner Access Now Easy, http: // sane-project. Org), який можна уподібнити TWAIN в Windows з тією різницею, що у TWAIN графічний інтерфейс жорстко прив`язаний до драйверу пристрою. SANE - це API і набір бекенда, на яких лежить підтримка тієї чи іншої моделі сканера. Таблицю сканерів, які підтримуються стабільною версією SANE, можна знайти тут: https://sane-project.org/sane-mfgs.html (список підтримуваних версією з git - https://sane-project.org/lists/sane-mfgs- cvs.html). Зверніть увагу на графу «Backend» - там йде посилання на конкретний модуль підтримки сканера. Якщо у вас старий LPT-сканер, то в графі «Interface» зверніть ува-гу, не вказано чи в дужках режим EPP. Якщо так, то для роботи сканера в SANE потрібно задати режим EPP для паралельного порту в BIOS CMOS Setup.

Встановлюючи Sane, не забудьте поставити демон saned. Він забезпечує можливість сканувати не тільки під root. У сучасних дистрибутивах Linux, як правило, USB-сканери визначаються автоматично утилітою налаштування сканерів з якогось системного «центру управління». З LPT-сканерами гірше: мало того, що вони погано визначаються з таких утиліт, так ще й часто позначені як «не підтримуються», якщо ви намагаєтеся «додати» їх через графічний інтерфейс. Раджу керуватися таблицею з сайту SANE: якщо там сказано, що сканер працює - так воно і є, всупереч всім графічним утилітам налаштування.

Наприклад, ось як я налаштував свій старий ScanExpress CP1200 +, який не працював і в Windows з моменту появи XP. Власне, приклад досить універсальний, і швидше за все буде потрібно лише змінити імена файлів бекенда і моделі сканера:
- В BIOS CMOS Setup вибрав режим EPP для паралельного порту.
- Вніс правки в конфігураційні файли sane (потрібні права root):



# 10003- У /etc/sane.d/dll.conf потрібно розкоментувати згадка імені файлу - mustek_pp (у вас може бути інший, залежно від сканера).
# 10003- У /etc/sane.d/mustek_pp задав сканер відповідним рядком:

scanner Mustek-1200cp + 0x378 cis1200 +


Тут 0x378 - адреса LPT-порту (див. В BIOS), а cis1200 + - тип сканера. Просто знайдіть в конфіги рядок для вашого сканера і раскомментіруете її. Як варіант, можна там же не ставити сканер жорстко, а включити автоматичне розпізнавання:
scanner mustek-cis1200 + * cis1200 +

Відео: Як створити книгу в форматі djvu


- Залишилося лише відсканувати - наприклад, через XSane або xscanimage.


ІНШЕ

Project spark starter pack в жовтні С„РѕС‚Рѕ

Project spark starter pack в жовтні

Компанія Microsoft офіційно повідомила про те, що в жовтні цього року користувачі Xbox One зможуть придбати коробочки…

Тонкий і ємний «китайфон» С„РѕС‚Рѕ

Тонкий і ємний «китайфон»

Відео: Смартфони з потужною Батареєю більше 6000 мАг (Список ТОП 10) Перевертні, камерофони, крута суперзахист за…

Cuneiform в наші дні С„РѕС‚Рѕ

Cuneiform в наші дні

Відео: # Нефилимов НАШІ ДНІ 2 # ЯКИЙ ПЛАН У занепалих? # З початку 90-х років компанія Cognitive Technologies випускала…

Linux-порт cuneiform фото

Linux-порт cuneiform

Відео: CuneiForm. Заміна ABBYY FineReader? «Віз і нині там» - можна відповісти словами байки, тільки аж…

Огляд бфп xerox workcentre 3215 фото

Огляд бфп xerox workcentre 3215

Відео: Xerox Phaser 3020BI Wi-Fi: огляд лазерного принтера В умовах сучасного офісу часто доводиться багато працювати з…

At & t: мови програмування фото

At & t: мови програмування

Відео: Улюблені мови програмування в Яндексі Дистрибутив Yoix включає в себе Yoix Web Application Instant Template…

Емулятор atari800 фото

Емулятор atari800

Відео: Atari800 Win PLus emulator installation tutorial Приступимо до встановлення емулятора з вельми промовистою…

Огляд canon pixma mp610 фото

Огляд canon pixma mp610

Відео: Огляд принтера Canon Pixma MP210 + тест Апарати, що поєднують в собі сканер, принтер і копір, все стрімкіше…

» » Оцифровка книг в формат djvu в linux