Ocr djvu – Djvu OCR — оцифровка djvu. Копировать текст в djvu файле.

Содержание

Djvu OCR — оцифровка djvu. Копировать текст в djvu файле.

Программу можно скачать с нашего сайта

Предназначена для внедрения текстового слоя OCR в книги djvu. Текстовый слой позволяет пользоваться поиском по документу, копировать текст из djvu в doc или txt.

DjVu OCR работает только совместно с FineReader 7-ой,8-ой,9-ой версий, предназначающейся для распознавания текста. Процедура оцифровки текста происходит за три этапа:

1) Во-первых программа (djvu OCR) конвертирует документ в формат tiff или djvu в doc

2) Во-вторых FineReader распознает текст из полученных изображений

3) И наконец, djvu OCR обрабатывает рабочий проект FineReader и извлекает информацию, которую затем интегрирует текстовый слой в djvu.

Программа не требует установки и может быть запущена прямо из архива.

Помимо интеграции программа также может извлекать уже существующий текстовый слой в djvu файл (режим — извлечь OCR слой). В программе можно обработать весь документ или указать диапазон обрабатываемых страниц. Выходные форматы txt и html.

Еще одним плюсом является то, что программу не нужно устанавливать. После скачивания архива, в нем можно найти четыре исполняемых файла:

1) DjvuOCR — Win32 GUI версия

2) FRFGrab — консольная версия

3) Djvused — стандартная утилита пакета djvulibre

4) cvthtml2 — конвертация OCR слоя в HTML (UTF8)

Опытные пользователи могут пользоваться консольной версией программы DjVu OCR подробное описание команд которой находиться в файле справки. Остальным пользователям достаточно запустить DjVu OCR.exe, у которого стандартный интерфейс.

Скриншоты программы:

Вы можете скачать бесплатно DjVu OCR (версия 2.4 на русском)

Скачать DjVu OCR

djvu-info.ru

Итоги по DjVu-программам

Итоги по DjVu-программам

Вернуться к разделу «DjVu-программы».



Итоги по DjVu-программам


Меня часто спрашивают: «Какие именно
программы для создания электронных версий
бумажных книг в формате DjVu лучше всего скачать с
сайта?»


Я составил небольшой и тщательно
отобранный список, в который вошли самые
действительно нужные, полезные, и по-настоящему
популярные программы по теме (на мой личный
взгляд, естественно). Всё это рекомендуется
скачать (кряки не нужны).


Кстати, я хотел бы обратить Ваше
внимание на тот факт, что до сих пор не существует
общепринятого, краткого и удобного термина для
обозначения понятия «Создание электронных
версий бумажных книг в формате DjVu» (хотя
потребность в таком термине существует уже
давно). За неимением лучшего я предлагаю временно
использовать для этой цели термин
«DjVu-книгосканирование» (возможно, не самый
удачный — надеюсь, кто-нибудь придумает что-то
получше).


На сегодняшний день усилиями многих
людей создан некоторый базовый набор программ
для DjVu-книгосканирования.


Важная особенность:
Навсегда в прошлое ушли те времена, когда для
DjVu-книгосканирования нужно было скачивать из
Интернета какие-то гигантские программные
пакеты размером в десятки, а то и в сотни
мегабайт. Теперь весь действительно нужный софт
имеет малый размер — обычно — 1-2 МБ, иногда 5-6 МБ,
и в редких случаях — 10-12 МБ. Это сделано специально
— для того, чтобы такой софт реально было
распространять через Интернет и чтобы он был
доступен даже для тех, кто сидит на простом
модеме.


Приведённый ниже базовый список
программ является полностью
достаточным для целей DjVu-книгосканирования.



Базовый набор софта для
DjVu-книгосканирования



















ПрограммаРазмерЗеркала

Рус.

ОткудаКомментарий
DjVu Small v0.4.41,44 МБ

Есть

Авторы: mas, Arcand, monday2000, kontiky,
Griefin
Основная
DjVu-программа. Пакетное (де)кодирование в/из DjVu
(Win98/2000/XP). См. обсуждение
программы.
Document Express Editor v5.0.0
Build 16 (без OCR и справки)
1,72 МБ1
(1,72 МБ)

Рус.

Автор: masОблегчённая версия DjVu
мета-редактора. Работает с аннотациями, собирает
многостраничные DjVu из кучи одностраничных и т.п.
Document Express Editor v6.0.1
Build 1320 LE (for NT) (Light Edition for NT)

Document
Express Editor v6.0.1 Build 1320 LE 9x (Light Edition for 9x)

1,19 МБ

 

1,16 МБ

1 (1,19 МБ)

 

2 (1,16 МБ)

Рус.

Авторы: mas, ArcandСледующая версия
DjVu-метаредактора. Функционально взаимно
дополняет предыдущую, однако, к сожалению, не
заменяет её полностью.

Новое:
— Редактирование дерева-оглавления.
— Работа с новыми аннотациями: Text и Line.
— Работа с двойными сканами.

Pdftodjvu LE v0.15,84 МБ

Нет

Авторы: Arcand, mas, Astra55. monday2000Конвертер для прямого
преобразования Pdf -> DjVu. Сделан на базе
пропатченных экзешников от DEE 5.1. Внутри есть
хелп. ВНИМАНИЕ: Векторные
PDF-файлы преобразовывать в DjVu бессмысленно.
DjvuOCR v2.4 beta4 full1,28 МБ

Есть

Автор: GenchoПрограмма для вставки в
DjVu-файл текстового OCR-слоя, распознанного в ABBYY
FineReader 8 PE (7 PE). См. документацию.
DjVu Hyperlinks
Editor v0.781
619 КБ

Есть

Автор: Shea

eu_sh [at] mail.ru
Программа для автоматической
генерации и внедрения гиперссылочного
оглавления — навигационного механизма по
DjVu-книге.
Scan
Tailor v0.9.9.2
6,78 МБ

Нет

Автор: TulonОсновная программа для
обработки «сырых» сканов — поворот, нарезка,
обрезка полей, удаление мусора и т.п. См. документацию.
ScanKromsator v5.92
Full (вкл. dll-библиотеки и Help к SK v1.0 в формате
Pdf).
3,40 МБ

Нет

Автор: bolegaДополнительная программа для
обработки «сырых» сканов. См. документацию.
ScanKromsator v5.6A
Full
2,25 МБ

Нет

Автор: bolegaСтарая версия c обширной документацией.
Book Restorer v4.2.1
Eng Portable
12,57 МБ

Нет

Автор: irokkezzПрограмма для обработки
сканов, используемая для выпрямления
искривленных строк текста, и для выравнивания освещённости
сканов, хотя она умеет и многое другое.
IrfanView v4.27 (или
выше)
+ DjVu Plugin v4.22
Скопируйте файл djvu.dll в /IrfanView/Plugins.
1,28 МБ + 329 КБ1

Рус.

IrfanViewВеликолепная программа,
используемая для разнообразных скан-целей -
например, пакетные преобразования и пр. При
наличии собственного DjVu-плагина понимает
DjVu-файлы.
ABBYY FineReader v8.0 PE (версии 7.0 PE или
9.0 PE допускаются, но они хуже)

Есть

ABBYYСамый популярный OCR-продукт.
Скачайте его из Интернета или купите на базаре
Adobe Photoshop 5.0
Rus Portable
34,3 МБ

Есть

Автор: vyachkoСамый популярный графический
редактор. Необходим для сложного редактирования
выборочных сканов. Портабельная версия.
WinDjView v1.0 noyb885 КБ

Есть

Автор: AndyZ
Автор инсталлятора: namchik.
Самый удобный и популярный
DjVu-просмотрщик (под Windows). Крайне удобен и
эргономичен. Есть русский интерфейс.
NameCreator v1.0269 КБ

Нет

Автор: TermoyadПрограмма для именования
файлов DjVu-книг по стандартизованной системе. См. документацию
DjVu Imager v2.91,17 МБ

Есть

Авторы: Алексей Крюков,
monday2000
Программа для вставки иллюстраций в DjVu-книгу.
Исходники (73 КБ) для MSVC++
6.

Небольшой FAQ по
DjVu-программам (Часто Задаваемые Вопросы):



1. Что это за формат такой — «DjVu»?
Зачем он? Что он из себя представляет?

2. Как именно пользоваться форматом DjVu?

3. Какой программой кодировать файлы в
формат DjVu (OC Windows)?

4. Какой программой декодировать DjVu-файлы
в обычные графические файлы (OC Windows)?

5. Как декодировать один многостраничный
DjVu-файл во множество одностраничных (обычных)
графических файлов?

6. Как собрать многостраничный DjVu-файл из
множества одностраничных DjVu-файлов?

7. Как добавить одностраничный DjVu-файл в
имеющийся многостраничный DjVu-файл?

8. Чем просматривать DjVu-файлы (OC Windows)?

9. Как напрямую переконвертировать Pdf-файл
в DjVu-файл (Pdf -> DjVu)?

10. Как напрямую переконвертировать
DjVu-файл в Pdf-файл?

11. Как напрямую переконвертировать
DjVu-файл в Word’овский Doc-файл?

12. Что делать, если при открытии DjVu-файла в
программе DjVuSolo v3.1 NonComm она выдаёт сообщение:
«DjVu Decoder: Cannot decode DjVu files with version >=25»?

13. Имеют ли DjVu-файлы встроенный текстовый
OCR-слой?

14. Зачем вставлять текстовый OCR-слой в
DjVu-файл?

15. Как разобрать многостраничный DjVu-файл
на одностраничные DjVu-файлы?

16. Что делать, если у меня ни один
DjVu-просмотрщик не работает?

17. Почему не следует использовать один
большой словарь на всю книгу при кодировании в
DjVu?

18. Как распечатать файл формата DjVu?

19. Как напрямую преобразовать Word’овский
Doc-файл в файл формата DjVu?

20. Как закодировать множество
одностраничных графических файлов в
соответствующее множество одностраничных
DjVu-файлов?

21. Как закодировать в DjVu цветные журналы?

22. Как осуществлять полнотекстовый поиск
по страницам множества DjVu-книг?



1. Что это за формат такой -
«DjVu»? Зачем он? Что он из себя представляет?


DjVu («Дежавю») — это графический формат. То
есть DjVu-файлы   — это просто «картинки».
Основное полезное свойство формата DjVu состоит в
том, что он умеет наиболее хорошо (по сравнению со
всеми остальными графическими форматами)
«сжимать» сканированные изображения
страниц бумажных книг — из-за чего этот формат
широко применяется для создания электронных
версий бумажных книг. Более подробную информацию
о формате DjVu смотрите на главной
странице сайта.


2. Как именно пользоваться
форматом DjVu?


Как правило, это делается так: сначала
необходимо каким-либо способом получить обычные
графические файлы — «картинки» — содержащие
изображения страниц бумажных книг. Обычно их
получают путём сканирования бумажных книг. Потом
эти обычные графические файлы кодируют в формат
DjVu, отчего их размер сильно уменьшается — без
потери качества изображения текста. Полученный
DjVu-файл используется как электронная книга: его
можно читать с экрана монитора, можно
обмениваться друг с другом такими самодельными
файлами через Интернет, можно распечатывать на
принтере.


Но вообще-то закодировать в формат DjVu можно и
текстовый файл (посредством виртуального
DjVu-принтера) — только вряд ли это имеет смысл -
текстовый файл всегда занимает гораздо меньший
размер, чем любой соответствующий ему
графический файл.


3. Какой программой
кодировать файлы в формат DjVu (OC Windows)?


Используйте DjVu Small. Эта программа использует
«фирменные» консольные утилиты от LizardTech -
поэтому она ничем не хуже оригинального пакета
LizardTech Document Express Enterpise with DjVu 5.1. Зато DjVu Small более
удобна в работе и имеет маленький размер.


Кроме того, для этой цели можно использовать
программы: LizardTech Document Express Enterpise with DjVu 5.1 (DEE 5.1),
LizardTech Document Express Enterpise with DjVu 5.1 Light Edition (DEE 5.1 LE), Document
Express Editor (5 или 6 версии), DjVu Solo 3.1. Однако все эти
программы по разным причинам менее
предпочтительны (либо они огромного размера, что
затрудняет скачивание, либо крайне неудобны для
пакетного кодирования).


4. Какой программой
декодировать DjVu-файлы в обычные графические
файлы (OC Windows)?


Используйте DjVu OCR 2 или выше. Это единственная
программа, которая не даёт сбой при
декодировании, если в многостраничном DjVu-файле
некоторые «страницы» повреждены.


Кроме того, для этой цели можно использовать
программы: DjVu Small, Irfan View + Irfan View DjVu Plugin v3.95 или выше,
и любой обычный виртуальный принтер. Однако все
эти программы по разным причинам менее
предпочтительны (или это вероятность сбоя, или
относительная сложность настройки).


5. Как декодировать один
многостраничный DjVu-файл во множество
одностраничных (обычных) графических файлов?


Используйте DjVu OCR 2 или выше. Он принимает на
входе один многостраничный файл и декодирует его
во множество одностраничных простых графических
файлов.


Кстати — это вообще один из практических
приёмов работы с форматом DjVu — преимущественная
работа с многостраничными файлами. Если мы,
работая с обычными графическими файлами,
стараемся иметь дело в основном с
одностраничными файлами (хотя бывают и
многостраничные простые графические файлы), то в
случае DjVu — наоборот — все стараются иметь дело с
одним многостраничным DjVu-файлом, нежели чем с
множеством составляющих его одностраничных
DjVu-файлов. Это объясняется тем фактом, что
обычные графические файлы мы можем
редактировать, а DjVu-файлы — нет, а можем только
просматривать их и декодировать в обычные файлы.


Поэтому Вы даже не сможете напрямую
преобразовать множество одностраничных
DjVu-файлов в соответствующее ему множество
простых одностраничных графических файлов — Вам
потребуется сначала собрать имеющееся множество
одностраничных DjVu-файлов в один многостраничный
DjVu-файл, и только потом декодировать его в
желаемое множество простых одностраничных
графических файлов — это политика LizardTech (судя по
DEE 5.1) — поэтому она реализована также и в DjVu Small.


Добавлено 28.02.2011: На сегодняшний день наиболее
рекомендованная программа для декодирования DjVu -
это MiniDjVu Plus
v1.3 (893 КБ). Пока что это единственная программа,
которая при декодировании «битых» страниц
многостраничного DjVu-файла (а также пустых белых)
создаёт чистые белые листы (а все остальные
программы в лучшем случае просто пропускают
такие DjVu-страницы при декодировании). В
дальнейшем такой функционал планируется
добавить в DjVu Small.


6. Как собрать
многостраничный DjVu-файл из множества
одностраничных DjVu-файлов?


Используйте Document Express Editor v5.0.0 Build 16 plus (без OCR и
справки). Откройте в нём первый в
последовательности одностраничный DjVu-файл,
затем выберите в меню Edit -> Insert Page(s) After…,
выберите в появившемся окне все остальные
одностраничные DjVu-файлы из данной
последовательности, и сохраните полученный
многостраничный файл.


7. Как добавить
одностраничный DjVu-файл в имеющийся
многостраничный DjVu-файл?


См. предыдущий вопрос — нужно проделать точно
такие же действия, только добавлять надо не
множество, а один данный одностраничный DjVu-файл.


8. Чем просматривать
DjVu-файлы (OC Windows)?


Используйте WinDjView. Это наилучший выбор — данная
программа превосходит все прочие
DjVu-просмотрщики — и даже «фирменный»
броузерный DjVu-плагин от LizardTech.


9. Как напрямую
переконвертировать Pdf-файл в DjVu-файл (Pdf -> DjVu)?


Для именно прямой конвертации используйте
пакет Pdftodjvu LE. Преимущество такой конвертации в
том, что при этом из Pdf-файла в DjVu-файл переносится
OCR-слой и гиперссылки (но иногда бывают проблемы с
русскими кодировками).


Однако, далеко не всегда имеет смысл делать
именно прямую конвертацию Pdf -> DjVu. В отличие от
формата DjVu, формат Pdf не является графическим.
Формат Pdf — это формат-контейнер, который может
содержать любой тип данных — текст, картинки,
таблицы, даже аудио- и видеоинформацию. Формат Pdf
обычно делится на такие виды:


Векторный: в таком
Pdf-файле содержится только символьная информация
— текст, таблицы, графики, формулы, чертежи. Такие
Pdf-файлы (внешне они выглядят как текст, набранный
типографским шрифтом) лучше всего
конвертировать в формат DjVu напрямую — получите
отличное качество и наименьший размер DjVu-файла.


Растровый: в таком
Pdf-файле содержится только неформализованная
информация — растровые картинки. Такие Pdf-файлы
(внешне они выглядят как сканированное
изображение текста) лучше всего конвертировать в
формат DjVu НЕ напрямую — а по схеме «Pdf -> Tif ->
DjVu». Всё дело в том, что прямой конвертер Pdftodjvu LE
«заточен» именно на векторные Pdf-файлы, а
растровые он плохо кодирует — получаются большие
DjVu-файлы.


Растрово-векторный:
Такие Pdf-файлы, как правило, лучше конвертировать
в формат DjVu НЕ напрямую — по схеме «Pdf -> Tif ->
DjVu». И только в отдельных редких случаях можно
применить прямое конвертирование «Pdf -> DjVu».
Всё это зависит от конкретного Pdf-файла, от вида и
соотношения растрового и векторного
содержимого. Попробуйте оба варианта
конвертирования и выберите наилучший.


10. Как напрямую
переконвертировать DjVu-файл в Pdf-файл?


Это можно сделать при помощи какого-либо
обычного виртуального принтера, например, Acrobat
Distiller (устанавливается автоматически при
инсталляции полного Adobe Acrobat (не-Reader’а) (показал
наилучший результат), FinePrint v5.29, pdfFactory или LEADTOOLS
ePrint v4.0. Правда, не все они корректно работают с
русским языком.


При такой конвертации OCR-слой и гиперссылки не
переносятся из DjVu-файла в Pdf-файл.


И ещё тут есть одна тонкость: если Вы печатаете
из броузерного DjVu-плагина, то нельзя отправлять
файл на печать выбором в пункте меню броузера
«Файл» подпункта «Печать» — из-за этого
DjVu-файл напечатается в виде пустых листов
(видимо, какая-то ошибка реализации), а надо,
кликнув правой кнопкой мыши на отображении файла
в броузере, выбрать в контекстном меню пункт
«Print…» и т.д.


11. Как напрямую
переконвертировать DjVu-файл в Word’овский Doc-файл?


Это невозможно. Формат DjVu — это графический, а не
текстовый формат. Поэтому DjVu-файлы не содержат
никакой информации о структуре документа — в
лучшем случае только внедрённый текстовый
OCR-слой — так что информацию для подобной прямой
переконвертации брать в DjVu-файле просто
неоткуда.


Поэтому для создания Word’овского Doc-файла из
DjVu-файла используется традиционный путь: DjVu-файл
преобразуется в какой-нибудь обычный
графический формат (см. п.5) и
распознаётся в ABBYY FineReader v7.0 (или v8.0). В последних
релизах ABBYY FineReader v9.0 предусмотрена прямая
поддержка на чтение формата DjVu (при формировании
пакета на распознавание).


12. Что делать, если при
открытии DjVu-файла в программе DjVuSolo v3.1 NonComm она
выдаёт сообщение: «DjVu Decoder: Cannot decode DjVu files with version
>=25»?


Есть 2 способа решения этой проблемы:


А. Открывать этот файл и работать с ним в Document
Express Editor v5.0.0 Build 16 plus (без OCR и справки) (2,0 МБ), а не в
DjVuSolo v3.1 NonComm.


Б. Понизить версию этого djvu-файла при помощи
утилиты DjVuVersion и тогда станет возможной
полноценная работа с ним в DjVuSolo v3.1 NonComm.


13. Имеют ли DjVu-файлы
встроенный текстовый OCR-слой?


И да, и нет. То есть возможность добавить в
DjVu-файл текстовый OCR-слой существует
(предусмотрена cпецификациями DjVu). Обычно
содержимое DjVu-файла распознаётся посредством ABBYY
FineReader v7.0 (или v8.0) и затем результат распознавания
вставляется в DjVu-файл посредством программы DjVuOCR
2.1.


Но в то же время, есть и множество DjVu-файлов, где
такой текстовый слой отсутствует (т.е. не был
никем создан и вставлен) — потому-то и существует
до сих пор ошибочное мнение, что DjVu-файл якобы не
поддерживает встроенный OCR-слой.


14. Зачем вставлять
текстовый OCR-слой в DjVu-файл?


Вопрос не так прост, как может показаться. Есть
люди, которые делают DjVu-книги (т.е. DjVu-файлы) и
умышленно не вставляют туда OCR-слой — т.к. из-за
этого возрастает размер эл. книги и поэтому её
становится дороже скачать из Интернета.


Обычно текстовый OCR-слой вставляют в DjVu-книгу
просто для удобства — чтобы, читая такую книгу,
можно было бы выделить мышкой нужный кусочек
текста, скопировать его в буфер и вставить в
текстовый файл.


Кстати — встроенный текстовый OCR-слой НЕ
содержит никакой информации о структуре
документа — это всего лишь простой сплошной текст
без какого-либо форматирования (хотя в DjVu-файле
при этом ещё имеется служебная информация и
местоположении слов (или букв — опционально)
текста).


Но есть и неизмеримо более важная и менее
очевидная причина — почему нужно вставлять
текстовый OCR-слой в DjVu-книги — для того, чтобы
обеспечить возможность поиска информации внутри
множества DjVu-книг по ключевым словам (если это не
нужно Вам лично — то это потребуется тем, кто
будет пользоваться Вашей книгой в числе прочих).


Для такого поиска используют разные
программные средства — например, Google Desktop Search + DjVu
Indexer Plugin или (что лучше всего) dtSearch + LizardTech DjVu iFilter.


В пределах одной DjVu-книги можно искать по
ключевому слову прямо в DjVu-просмотрщике -
например, в WinDjView (в броузерном DjVu-плагине тоже
можно).


Не исключено, что когда-нибудь и популярные
поисковые сервера Интернета сделают у себя
поддержку такой возможности (хотя пока, к
сожалению, налицо прямо противоположная
тенденция).


Однако, далеко не во все DjVu-книги имеет смысл
вставлять текстовый OCR-слой — в основном, только в
DjVu-книги учебно-справочного характера. Скажем, в
развлекательные DjVu-книги (например, о плаваниях
капитана Кусто) вставлять текстовый OCR-слой
смысла почти нет.


15. Как разобрать
многостраничный DjVu-файл на одностраничные
DjVu-файлы?


А зачем это Вам? Подобная необходимость
практически никогда не должна возникать. Хотите
декодировать многостраничный DjVu-файл в набор
простых одностраничных графических файлов? Или
же переконвертировать его в Pdf? Или осуществить
иное преобразование? Так для этого вовсе не надо
предварительно разбирать многостраничный
DjVu-файл на составляющие его «страницы»- см.
предыдущие вопросы.


Общий принцип таков:


С форматом DjVu наиболее удобно работать в
форме многостраничных файлов — а не в форме
соответствующего множества одностраничных
DjVu-файлов.


А как же быть, если Вы хотите сделать выборку из
имеющегося многостраничного DjVu-файла — то есть
Вам нужно оформить некое подмножество
«страниц» многостраничного DjVu-файла как
новый отдельный многостраничный DjVu-файл?


Наиболее правильно это можно сделать так:
декодируйте желаемый диапазон «страниц»
многостраничного DjVu-файла в соответствующий ему
набор простых одностраничных графических файлов
(при помощи DjVu Small), а потом закодируйте
полученные одностраничные графические файлы в
новый DjVu-файл (также при помощи DjVu Small; и сделайте
OCR по необходимости).


А почему же эту задачу нельзя выполнить
разборкой-сборкой многостраничного DjVu-файла? И
можно ли вообще проделать подобную
разборку-сборку?


Да, такую разборку-сборку проделать можно. Но
крайне нежелательно — сильно увеличивается
размер файла. Причина в том, что при создании
многостраничного DjVu-файла любой LizardTech
DjVu-кодировщик использует т.н. «словари»
(другое название — «djbz-словари»). Словарь — это
особенная уловка для снижения размера
многостраничного DjVu-файла. Словарь содержит
список геометрических форм, повторяющихся на
ряде DjVu-страниц и общих для них. Как правило, это
буквы текста. Словарь обычно автоматически
создаётся для каждых 10-20 страниц (это
настраиваемый параметр) многостраничного
DjVu-файла DjVu-кодировщиком при кодировании и
автоматически интегрируется в получающийся
многостраничный DjVu-файл.


Таким образом, в многостраничном DjVu-файле
словари повторяются через каждые 10-20 страниц, и в
словарях хранятся символы, общие для
соответствующей группы 10-20 страниц — что в итоге
даёт солидное снижение размера многостраничного
DjVu-файла.


Практически все нынешние многостраничные
DjVu-файлы имеют такие встроенные словари.


При разборке многостраничного DjVu-файла на
одностраничные разбирающей программе
приходится добавлять символы словаря в каждый
полученный одностраничный DjVu-файл — что приводит
к росту их размера. У меня в тестовом примере
получилось увеличение примерно в полтора раза. И
при обратной сборке полученных одностраничных
DjVu-файлов результирующий многостраничный
DjVu-файл остаётся с завышенным размером, равным
сумме размеров «собранных» одностраничных
DjVu-файлов — то есть словари не восстанавливаются
при сборке.


Если же Вам, несмотря на все эти объяснения,
всё-таки хочется проделать подобную
разборку-сборку, то приведу описание этой
процедуры.


Начнём с разборки: для этой операции можно
использовать Document Express Editor v5.0.0 Build 16 plus (без OCR и
справки) — выделять вручную отдельно каждую
«страницу» в многостраничном DjVu-файле и
сохранять её отдельно через «Save Page As…» -
получите соответствующий набор одностраничных
DjVu-файлов.


Однако, подобный ручной способ разборки
неприемлем для больших DjVu-файлов. Для облегчения
этой процедуры я сделал специальную простейшую
консольную программу DjVu Unbundler
(275 КБ).


Сборку полученных «разобранных»
одностраничных DjVu-файлов можно осуществлять как
обычно — при помощи программы Document Express Editor v5.0.0 Build
16 plus (без OCR и справки) — см. вопрос № 6.


16. Что делать, если у меня
ни один DjVu-просмотрщик не работает?


Отключите 2-е ядро на своём 2-ядерном
микропроцессоре (Хотя бы при помощи диспетчера
задач) — и всё заработает.


17. Почему не следует
использовать один большой словарь на всю книгу
при кодировании в DjVu?


Отвечает Cptn_Cook:


1) Если файл смотрится по сети, то ничего не
отобразится, пока не загрузится весь нужный
словарь. Для типичной книги, словарь имеет размер
200-300 KB, для модема это существенно.


2) Если редактировать DjVu-файл при помощи DjVuLibre,
то резка и склейка очень быстро приводит к тому,
что словари начинают повторяться (не трудно
понять, почему). При этом, если словарь порядка 10
КБ, то это не страшно, а если 200 КБ, то уже
неприятно.


3) DjVu — довольно устойчивый к ошибкам формат, но
если ошибка возникает в словаре, то ни одна
страница, которая этим словарем пользуется, не
отобразится (читай, вся книга при pages-per-dict = 10000).


4) Книга с одним большим словарём медленнее
открывается в DjVu-просмотрщике — это заметно на
глаз и вызывает раздражение у пользователя.


5) Большой словарь потребляет слишком много
оперативной памяти — при работе с WinDjView.

На самом деле, совершенно не обязательно делать
pages-per-dict = 10000. Такое значение дает выигрыш в
размере файла 20%, но если использовать pages-per-dict = 20,
то выигрыш (по сравнению с pages-per-dict = 10) 10%. Похоже,
это неплохой компромис. Между прочим, any2djvu
использовал pages-per-dict = 20, но потом поменял на
pages-per-dict = 10, наверное потому, что в этом случае
обработка быстрее.


18. Как распечатать файл
формата DjVu?


Скачайте и установите программу WinDjView. Откройте
в ней DjVu-файл, выберите в меню пункт «Файл» -
«Печать» и распечатайте его.


19. Как напрямую
преобразовать Word’овский Doc-файл в файл формата DjVu?


Есть 2 варианта:


1. Установите программу «виртуальный
DjVu-принтер» и, открыв Doc-файл в Word’е, отправьте
его на печать на этот виртуальный принтер.


2. Если у Вас стоит MS Word 2007, то скачайте с http://tokage.celartem.com/beta Office 2007
DjVu Exporter, проинсталлируйте его и, открыв Doc-файл в
Word’е 2007, сохраните его в формат DjVu.


20. Как закодировать
множество одностраничных графических файлов в
соответствующее множество одностраничных
DjVu-файлов?


Лучше не делать этого. Наиболее правильно
кодировать множество обычных графических файлов
в один многостраничный DjVu-файл — т.к. при этом
создаются словари разделённых символов, что
заметно снижает размер получаемого DjVu-файла.


Если Вам это всё-таки действительно очень
нужно, то используйте Document Express Enterprise 5.1 (можно Light
Edition).


21. Как закодировать в DjVu
цветные журналы?


Кодируйте обработанные сканы целиком либо в
DjVuPhoto (при помощи DjVu Small или MiniDjVu Plus), либо в PDF-JPEG2000
(Adobe Acrobat Pro).


22. Как осуществлять
полнотекстовый поиск по страницам множества
DjVu-книг?


1. Яндекс Персональный поиск. http://desktop.yandex.ru/
. Самое рекомендуемое решение.
Свободно-бесплатная программа.


2. Архивариус 3000 (коммерческая программа). Очень
хороший вариант.


3. Google Desktop Search + DjVu Plugin к нему http://desktop.google.com/plugins/search/?query=djvu.

4. dtSearch + DjVu Shell Extension Pack http://www.caminova.net/en/downloads/



Копирайт и электронные библиотеки


Путин разобрался
с интернет-библиотеками  (С 28.07.2004
вступил в силу новый «Закон об авторских и
смежных правах»)


…Автора! 
(Е. Любарская)  (Очень важная статья -
разъяснение текущего состояния эл. копирайта -
прочитать обязательно!)


При Минпечати
создается группа для решения проблемы
электронных библиотек  (статья от 14.12.2004)


На пути к
абсолютному знанию — 2  (Общие
рассуждения о возможности и необходимости
изменения российского копирайтного
законодательства с целью учёта существования
электронных библиотек)


Lib.Ru: О копирайтах и др.



Автор: monday2000.


Дата создания: 3 ноября 2006 г.


Последнее обновление: 4 апреля 2011 г.


Примечание: На этой странице всегда
находятся самые свежие и актуальные версии
наиболее важных DjVu-программ.


E-Mail  (monday2000 [at] yandex.ru)

djvu-soft.narod.ru

Базовые понятия DjVu-книгосканирования

Базовые понятия DjVu-книгосканирования

Вернуться к разделу «Материалы по
сканированию и оцифровке бумажных книг».



Базовые понятия
DjVu-книгосканирования


В этой небольшой статье собран список общих
понятий и терминов, которые необходимо знать
каждому, кто сканирует бумажные книги в формат
DjVu. Здесь вынужденно даётся лишь краткое
описание — подробнее ищите в Интернете, а также в
русско- и англоязычной Википедии.


Если Вы сканируете книги для DjVu -
проверьте себя — знаете ли Вы эти понятия.



Основные постулаты


(Советы опытных книгосканировщиков)


Наиболее важные:


1. Не используйте программу ABBYY FineReader версий
7, 8
или ниже для сканирования книг. Она
корёжит получаемые скан-изображения страниц
книги. Можно использовать программу ABBYY FineReader 9
для этого — но перед сканированием сбросьте там в
опциях галку «Исправить перекос изображения«.


2. Не сканируйте книги в чёрно-белом режиме
(Black-White или Line Art или 1-bit), а ТОЛЬКО в режиме серого
(Greyscale, или 8-bit) или цветного (Color, или 32-bit) — если
книга содержит цветные рисунки. Сканирование в
чёрно-белом режиме приводит в итоге к
необратимому ухудшению качества получаемой
DjVu-эл.книги. Данный режим сканирования
задаётся в интерфейсе сканера — т.е. в том окне,
которое появляется после нажатия в программе
кнопки «Сканировать».


3. Не сканируйте в формат JPG. Формат JPG
«размывает» скан-изображения страниц книги.


4. Не используйте опцию «Заменять
неуверенно-распознанные символы их
изображениями»
— когда создаёте
Pdf-эл.книгу в ABBYY FineReader — такие эл. книги выглядят
ужасно.


Прочее:


5. Сканируйте книги в формат TIF и с разрешением
не менее 300 DPI. Для наиболее высокого качества
сканируйте с разрешением 600 DPI.


6. Не пожалейте 2-3 вечера и освойте
использование таких программ, как ScanKromsator 5.93 и
BookRestorer 4.2.1. Эти программы позволяют радикально
облагородить «сырые» сканы (т.е. получаемые
непосредственно от сканера) перед
закодированием их в формат DjVu.


7. Не используйте формат Pdf для создания
электронной версии бумажной книги. Взамен
используйте формат DjVu (кроме случаев полной
ручной свёрстки текстовой Pdf-эл.книги).
Электронные книги в формате DjVu занимают меньший
размер (по сравнению с Pdf), не «тормозят» в
просмотрщике (в отличие от Pdf), и имеют более
чёткий текст, чем Pdf.


8. Для просмотра файлов в формате DjVu под Windows
используйте программу WinDjView — все прочие
варианты значительно хуже.


9. Сохраняйте полученные «сырые» сканы книг
на болванку (CD-R или DVD+R) — чтобы обезопасить себя
от их случайной утраты.



Что такое «качественная» DjVu-книга? Каков
именно максимальный уровень качества, который
можно достичь при создании DjVu-книги? Чтобы
ответить для себя на эти вопросы, посмотрите для
образца:


Пример качественной DjVu-книги
(554 КБ)  (Для просмотра необходима программа
WinDjView).



Концептуальная схема
DjVu-книгосканирования


1. Сканирование бумажной книги. В
результате получаются т.н. «сырые сканы»-
серые или цветные необработанные изображения
страниц книги. Смысл — получение «сырья» для
будущей электронной книги. Рекомендуемая
программа — Irfan View.


2. Обработка сырых сканов. Это
«облагораживание» сырых сканов (другое
название — «кромсание»). Смысл — задать
хорошее качество будующей электронной книги.
Иначе (если довольствоваться «сырыми
сканами») такой электронной книгой будет
практически невозможно воспользоваться.
Рекомендуемая программа — ScanKromsator, BookRestorer.


3. Кодирование обработанных сканов в формат
DjVu
(можно в Pdf, но это хуже). Смысл — радикально
уменьшить размер «облагороженных» сканов
без серьёзной потери качества. В результате
электронными книгами столь малого размера
становится возможным обмениваться через
Интернет. Есть и другие плюсы. Рекомендуемая
программа — DjVu Small, Document Express Enterprise 5.1 (DEE 5.1).


4. Добавление текстового OCR-слоя (не
обязательно). Смысл — дать читателям возможность
копирования цитат, а также поиска по ключевым
словам. Обе эти возможности довольно нужны и
важны. Рекомендуемая программа — ABBYY FineReader 8.0, DjvuOCR
2 и выше.


Примечание: Перечисленные
программы можно скачать в разделе Итоги
по DjVu-программам.



Основные термины


Двоичное исчисление — Способ записи
любого числа при помощи единиц и нулей.
Производные понятия — «восьмеричное
исчисление», «шестнадцатеричное
исчисление». См. Описание.


Растровое изображение -
Неформализованная картинка, хранимая в виде
массива пикселей.


Векторное изображение -
Формализованная картинка, хранимая в виде команд
на построение изображения. См. Описание


Пиксель — Элементарный элемент
растрового изображения. Имеет монотонный цвет по
всей своей площади.


Глубина цвета — Битовая разрядность
растрового изображения. Количество бит,
выделяемое для описания одного пикселя
изображения, например: 1 — для чёрно-белого (или B/W),
8 — для серого (или Grey), 24 — для цветного (или Color).


Чтобы выяснить глубину цвета данного файла,
нужно щёлкнуть правой кнопкой мыши на
пиктограмме файла, и выбрать (в WinXP): Свойства
-> Вкладка «Сводка» -> Кнопка
«Дополнительно»:



BW (или B/W) — Чёрно-белое
изображение, т.е. «Black and White». Каждый пиксель
описан 1 битом, поэтому изображение содержит лишь
2 цвета — чёрный и белый. Часто называется также
«битмап» (bitmap) или «чёрно-белые сканы»,
или «bw», а также «Line Art» — штриховая
графика.


Greyscale (или Grayscale) — Серое
изображение. Каждый пиксель описан 1 байтом (т.е. 8
бит), поэтому изображение содержит 256 оттенков
серого цвета. Часто называется также
«изображение в градациях серого», или
«полутоновое изображение», или просто
«серые сканы».


Color — Цветное изображение. Каждый
пиксель описан 4 байтами (т.е. 32 бита) и
формируется из смеси красного, синего, зелёного
цветов (по 1 байту на каждый такой канал цвета)
плюс 1 байт идёт на описание прозрачности,
поэтому изображение содержит 16,7 млн. цветных
оттенков.


Бинаризация — Процедура
преобразования из Greyscale или Color в BW. Может быть (в
зависимости от алгоритма) пороговой, адаптивной,
энтропийной, и т.д.


Порог бинаризации — Номер серого
цвета, всё светлее которого становится белым, а
всё темнее — чёрным (при бинаризации).


Разрешение — Условная величина.
Количество пикселей на единицу условной
метрической длины растрового изображения.
Измеряется в DPI (dots per inch) — «точек на дюйм».
Значение DPI, длина и ширина изображения в
пикселях хранятся в заголовке растрового файла -
и, исходя из этих параметров, графические
программы вычисляют условные метрические длину
и ширину растрового файла (в дюймах или
сантиметрах).


Ресемплинг — (англ. «Resampling» -
«Перевыборка» ). Процедура
«переразбиения» на пиксели растрового
изображения — ради увеличения/уменьшения
количества пикселей изображения. При этом всегда
изменяется разрешение (DPI) и всегда меняется
размер файла растрового изображения. Не путать с
«ресайзингом» — изменением условных
метрических размеров изображения с
пропорциональным изменением его разрешения — при
этом размера файла изображения НЕ МЕНЯЕТСЯ. См. Описание.


Повышающий ресемплинг (или Апсемплинг
— от англ. «Upsampling»). Частный случай
ресемплинга. Процедура увеличения
количества пикселей в изображении за счёт
интерполяции цветов соседних пикселей. Не
добавляет реальную информацию в изображение.


Понижающий ресемплинг (или
Даунсемплинг — от англ. «Downsampling»). Частный
случай ресемплинга. Процедура уменьшения
количества пикселей в изображении. Необратимо
уменьшает реальную информацию в изображении.
Также называется ещё «Субдискретизация».


Яркость — Субъективный показатель
«осветлённости» изображения. Влияет на все
пиксели изображения. Большая или меньшая яркость
задаётся просто оптовым увеличением/уменьшением
номеров цветов всех пикселей изображения.


Контрастность — Степень
«различности» самых светлых и самых тёмных
пикселей изображения. При увеличении
контрастности пикселы, имеющие яркость выше
некоторого значения, приобретают еще большую
яркость, а пикселы, имеющие яркость ниже
некоторого значения, становятся еще темнее.


Гамма — Параметр, влияющий на
среднеяркие пиксели («антипод»
контрастности). При изменении гаммы самые
светлые и самые тёмные пиксели изображения не
меняются.


Гистограмма — Линейно-столбчатый
график, отображающий процентное распределение
яркости по всем пикселям изображения. Служит
наглядным измерительным инструментом,
характеризующим изображение. См. Описание.


Муар — Нежелательный узор, возникающий
при наложении двух периодических сетчатых
рисунков. См. Описание.


Dithering (Дизеринг, или
«Растрирование», а также
«Клиширование») — Автоматическая процедура,
преобразующая Greyscale-изображение в чёрно-белое
особым способом — исходное изображение рисуется
мелкими чёрно-белыми точками одинакового
размера, но через точно алгоритмически
рассчитанное расстояние друг от друга. В
результате достигается оптическая иллюзия
исходного Greyscale-изображения, хотя рисунок уже на
самом деле чёрно-белый. Dithering применяется для
бинаризации Greyscale-рисунков на сканах книг, т.к.
обычная бинаризация нередко портит такие
рисунки. См. Описание.



Deskew — (От англ. «skew» — наклон,
склон, скос, уклон). «Дескью» (также
«Ортогонизация»), или автоматическая
процедура устранения углового перекоса
страницы.

Когда мы сканируем лист бумаги с
текстом, то, как правило, кладём этот лист на
стекло сканера не строго параллельно сторонам
сканера — а под небольшим углом. Поэтому на
полученном скане строки текста выглядят не
горизонтально. Алгоритм Deskew автоматически
вычисляет угол перекоса и поворачивает скан
целиком на этот найденный угол так, чтобы строки
текста стали горизонтальными.

Скан до Deskew

Скан после Deskew

Despeckle — (От англ. «speckle» — крапинка,
пятнышко). «Деспекл», или автоматическая
процедура удаления мелких «соринок» на
скане. По своей природе работает только на
чёрно-белых сканах — на Greyscale и Color сканы не
оказывает должного эффекта.


При сканировании текста на полученном скане
часто оказываются многочисленные мелкие и
мельчайшие тёмные «крапинки» (спеклы) — из-за
высокой чувствительности сканирующей головки
сканера. Алгоритм Despeckle автоматически удаляет
такой «мусор» со скана.



Скан до Despeckle

Скан после Despeckle

DPI — См. пункт «Разрешение«.


TWAIN-интерфейс — Стандартизованный
программный язык, при помощи которого
сканирующая программа «общается» со
сканером. Необходим для того, чтобы любая
сканирующая программа могла «понимать»
любой сканер. Большинство современных сканеров
поддерживают TWAIN-интерфейс.


Anti-aliasing — Процедура сглаживания
«зубцов» кривых линий на растровых
изображениях. См. Описание.


OCROptical Character Recognition
— технология автоматического распознавания
текста на его сканированном изображении. Это
основная цель такой программы, как, например, ABBYY
FineReader.



Форматы растровой графики


Основной рабочий графический формат при
DjVu-сканировании — это формат TIF. Он включает в себя
несколько «подформатов» или режимов — без
сжатия, со сжатием, и т.д. Обратите внимание на 2
популярных режима (со сжатием данных) TIF-файла:


Режим LZW — применяется в серых и
цветных TIF-файлах.


Режим CCIT FAX G4 — применяется в
чёрно-белых TIF-файлах.


Важная деталь: оба этих режима дают сжатие БЕЗ
ПОТЕРЬ (каждый для своего класса глубины цвета).


Эти 2 режима наиболее широко применяются в
сканобработке (т.к. они дают наименьший
«естественный» размер файлов).


Сжатие LZW обычно никогда не применяется
для 1-битных TIF-файлов — поскольку сжатие CCIT FAX G4
примерно в 2 раза эффективнее, чем LZW для
чёрно-белого.


Возьмите любой TIF-файл и попробуйте сохранить
его в режимах TIF (LZW) или TIF (CCIT FAX G4) в каком-нибудь
графической программе — например, Irfan View или ACDSee.
Посмотрите, насколько при этом уменьшился размер
файла. Обратите внимание, что при сохранении
серого или цветного изображения в режиме CCIT FAX G4
оно автоматически становится чёрно-белым.


Кроме того, ознакомьтесь с наиболее
популярными форматами
растровой графики.



Термины, используемые при работе с
программой СканКромсатор



Сдвоенный разворот

Одиночный разворот

Сдвоенный разворот — Скан, на котором
видны изображения 2-х соседних страниц бумажной
книги. Такие сканы получаются в случае
малоформатных бумажных книг — когда весь
разворот целиком помещается на стекле A4-сканера.


Левая страница — Изображение левой
страницы книги на сдвоенном развороте.


Правая страница — Изображение правой
страницы книги на сдвоенном развороте.


Одиночный разворот — Скан, на котором
видно изображение только одной страницы
бумажной книги. Такие сканы получаются в случае
крупноформатных бумажных книг — когда на стекле
A4-сканера помещается только одна страница книги
(а не разворот).


Ошмёток — Бесполезная часть соседней
страницы (на одиночном развороте) в виде
вертикальной полосы.


ОВ-символ — Малоразмерные смысловые
элементы текста, далеко отстоящие от основной
массы текста на скане. Например, номера страниц,
элементы оглавления, значки параграфов, подписи
к рисункам. Алгоритму, распознающему на скане
положение контура текста, трудно опознать эти
элементы как смысловые — для этого потребовалось
бы проводить полноценный OCR текста на скане.



Понятия, используемые при работе с
форматом DjVu


1. Тип DjVu-файла


Чтобы узнать, какой перед нами тип DjVu-файла,
откройте его в WinDjView, и щёлкните правой кнопкой
мыши на его изображении. В появившемся
контекстном меню появится пункт «Информация
о странице»
. Если выбрать этот пункт, то мы
увидим примерно такое окно:




Серый или цветной DjVu-файл

Чёрно-белый DjVu-файл

Если в этом окне присутствуют многочисленные
записи, содержащие слово «IW44» — значит, перед
нами либо серый, либо цветной DjVu-файл. Если же в
этом окне относительно мало записей, и нет
упоминания о «IW44» — значит, это чёрно-белый
DjVu-файл.


1. Наличие/отсутствие встроенного OCR-текста


Для того, чтобы узнать, содержит ли данный
DjVu-файл встроенный OCR-текст, нажмите на панели
управления WinDjView кнопку «Режим выделения»
(с рисунком в виде буквы «I» и с маленьким
чёрным треугольничком сбоку):



Курсор мыши примет такую форму: «I».


Затем попробуйте выделить курсором мыши
произвольный участок текста. Если данный DjVu-файл
содержит встроенный OCR-текст, то выделяемый мышью
текст подсветится чёрным цветом:



Теперь можете щёлкнуть правой кнопкой мыши по
произвольному месту подсвеченного чёрным текста
и в появившемся контекстном меню выбрать пункт
«Скопировать текст». При этом выделенный
текст скопируется в буфер обмена, откуда его
можно будет вставить в любой текстовый редактор -
MS Word, NotePad, и т.п.


Существуют поисковые программы, которые
осуществляют поиск по ключевым словам по группе
DjVu-книг. Эти программы анализируют встроенный
OCR-текст в каждой DjVu-книге из группы поиска.


3. Наличие/отсутствие букмарков


Букмарки (другие названия: Закладки,
Дерево-оглавление, Bookmarks, Outline) — это навигационный
механизм по DjVu-книге. Если DjVu-книга содержит
букмарки, то тогда в WinDjView появляется
дополнительная вкладка «Содержание».
При нажатии на эту вкладку открывается окно
содержания следующего вида:



Букмарки — это стандартный навигационный
механизм, предусмотренный официальными
спецификациями формата DjVu. Практически любой
современный DjVu-просмотрщик способен отображать
букмарки. Исключение составляет программа OpenDjVu -
имеющая свой особый формат букмарков,
несовместимый со стандартным.



Литература


Глава
2. Коррекция изображений (Из
учебника «Иллюстрированный самоучитель по
WEB-графике») — очень толковое описание
некоторых базовых понятий растровой графики.



Автор: monday2000.


14 ноября 2007 г.


E-Mail  (monday2000 [at] yandex.ru)

djvu-soft.narod.ru