Ocr djvu – Djvu OCR — оцифровка djvu. Копировать текст в djvu файле.

Содержание

Djvu OCR — оцифровка djvu. Копировать текст в djvu файле.

Программу можно скачать с нашего сайта

Предназначена для внедрения текстового слоя OCR в книги djvu. Текстовый слой позволяет пользоваться поиском по документу, копировать текст из djvu в doc или txt.

DjVu OCR работает только совместно с FineReader 7-ой,8-ой,9-ой версий, предназначающейся для распознавания текста. Процедура оцифровки текста происходит за три этапа:

1) Во-первых программа (djvu OCR) конвертирует документ в формат tiff или djvu в doc

2) Во-вторых FineReader распознает текст из полученных изображений

3) И наконец, djvu OCR обрабатывает рабочий проект FineReader и извлекает информацию, которую затем интегрирует текстовый слой в djvu.

Программа не требует установки и может быть запущена прямо из архива.

Помимо интеграции программа также может извлекать уже существующий текстовый слой в djvu файл (режим — извлечь OCR слой). В программе можно обработать весь документ или указать диапазон обрабатываемых страниц. Выходные форматы txt и html.

Еще одним плюсом является то, что программу не нужно устанавливать. После скачивания архива, в нем можно найти четыре исполняемых файла:

1) DjvuOCR — Win32 GUI версия

2) FRFGrab — консольная версия

3) Djvused — стандартная утилита пакета djvulibre

4) cvthtml2 — конвертация OCR слоя в HTML (UTF8)

Опытные пользователи могут пользоваться консольной версией программы DjVu OCR подробное описание команд которой находиться в файле справки. Остальным пользователям достаточно запустить DjVu OCR.exe, у которого стандартный интерфейс.

Скриншоты программы:

Вы можете скачать бесплатно DjVu OCR (версия 2.4 на русском)
Скачать DjVu OCR

djvu-info.ru

Итоги по DjVu-программам

Итоги по DjVu-программам

Вернуться к разделу «DjVu-программы».


Итоги по DjVu-программам

Меня часто спрашивают: «Какие именно программы для создания электронных версий бумажных книг в формате DjVu лучше всего скачать с сайта?»

Я составил небольшой и тщательно отобранный список, в который вошли самые действительно нужные, полезные, и по-настоящему популярные программы по теме (на мой личный взгляд, естественно). Всё это рекомендуется скачать (кряки не нужны).

Кстати, я хотел бы обратить Ваше внимание на тот факт, что до сих пор не существует общепринятого, краткого и удобного термина для обозначения понятия «Создание электронных версий бумажных книг в формате DjVu» (хотя потребность в таком термине существует уже давно). За неимением лучшего я предлагаю временно использовать для этой цели термин «DjVu-книгосканирование» (возможно, не самый удачный — надеюсь, кто-нибудь придумает что-то получше).

На сегодняшний день усилиями многих людей создан некоторый базовый набор программ для DjVu-книгосканирования.

Важная особенность: Навсегда в прошлое ушли те времена, когда для DjVu-книгосканирования нужно было скачивать из Интернета какие-то гигантские программные пакеты размером в десятки, а то и в сотни мегабайт. Теперь весь действительно нужный софт имеет малый размер — обычно — 1-2 МБ, иногда 5-6 МБ, и в редких случаях — 10-12 МБ. Это сделано специально — для того, чтобы такой софт реально было распространять через Интернет и чтобы он был доступен даже для тех, кто сидит на простом модеме.

Приведённый ниже базовый список программ является полностью достаточным для целей DjVu-книгосканирования.


Базовый набор софта для DjVu-книгосканирования

Программа Размер Зеркала

Рус.

Откуда Комментарий
DjVu Small v0.4.4 1,44 МБ

Есть

Авторы: mas, Arcand, monday2000, kontiky, Griefin Основная DjVu-программа. Пакетное (де)кодирование в/из DjVu (Win98/2000/XP). См. обсуждение программы.
Document Express Editor v5.0.0 Build 16 (без OCR и справки) 1,72 МБ 1 (1,72 МБ)

Рус.

Автор: mas Облегчённая версия DjVu мета-редактора. Работает с аннотациями, собирает многостраничные DjVu из кучи одностраничных и т.п.
Document Express Editor v6.0.1 Build 1320 LE (for NT) (Light Edition for NT)

Document Express Editor v6.0.1 Build 1320 LE 9x (Light Edition for 9x)

1,19 МБ

 

1,16 МБ

1 (1,19 МБ)

 

2 (1,16 МБ)

Рус.

Авторы: mas, Arcand Следующая версия DjVu-метаредактора. Функционально взаимно дополняет предыдущую, однако, к сожалению, не заменяет её полностью.

Новое:
— Редактирование дерева-оглавления.
— Работа с новыми аннотациями: Text и Line.
— Работа с двойными сканами.

Pdftodjvu LE v0.1 5,84 МБ

Нет

Авторы: Arcand, mas, Astra55. monday2000 Конвертер для прямого преобразования Pdf -> DjVu. Сделан на базе пропатченных экзешников от DEE 5.1. Внутри есть хелп. ВНИМАНИЕ: Векторные PDF-файлы преобразовывать в DjVu бессмысленно.
DjvuOCR v2.4 beta4 full 1,28 МБ

Есть

Автор: Gencho Программа для вставки в DjVu-файл текстового OCR-слоя, распознанного в ABBYY FineReader 8 PE (7 PE). См. документацию.
DjVu Hyperlinks Editor v0.781 619 КБ

Есть

Автор: Shea
eu_sh [at] mail.ru
Программа для автоматической генерации и внедрения гиперссылочного оглавления — навигационного механизма по DjVu-книге.
Scan Tailor v0.9.9.2 6,78 МБ

Нет

Автор: Tulon Основная программа для обработки «сырых» сканов — поворот, нарезка, обрезка полей, удаление мусора и т.п. См. документацию.
ScanKromsator v5.92 Full (вкл. dll-библиотеки и Help к SK v1.0 в формате Pdf). 3,40 МБ

Нет

Автор: bolega Дополнительная программа для обработки «сырых» сканов. См. документацию.
ScanKromsator v5.6A Full 2,25 МБ

Нет

Автор: bolega
Старая версия c обширной документацией.
Book Restorer v4.2.1 Eng Portable 12,57 МБ

Нет

Автор: irokkezz Программа для обработки сканов, используемая для выпрямления искривленных строк текста, и для выравнивания освещённости сканов, хотя она умеет и многое другое.
IrfanView v4.27 (или выше) + DjVu Plugin v4.22
Скопируйте файл djvu.dll в /IrfanView/Plugins.
1,28 МБ + 329 КБ 1

Рус.

IrfanView Великолепная программа, используемая для разнообразных скан-целей - например, пакетные преобразования и пр. При наличии собственного DjVu-плагина понимает DjVu-файлы.
ABBYY FineReader v8.0 PE (версии 7.0 PE или 9.0 PE допускаются, но они хуже)

Есть

ABBYY Самый популярный OCR-продукт. Скачайте его из Интернета или купите на базаре
Adobe Photoshop 5.0 Rus Portable 34,3 МБ

Есть

Автор: vyachko Самый популярный графический редактор. Необходим для сложного редактирования выборочных сканов. Портабельная версия.
WinDjView v1.0 noyb 885 КБ

Есть

Автор: AndyZ
Автор инсталлятора: namchik.
Самый удобный и популярный DjVu-просмотрщик (под Windows). Крайне удобен и эргономичен. Есть русский интерфейс.
NameCreator v1.0 269 КБ

Нет

Автор: Termoyad Программа для именования файлов DjVu-книг по стандартизованной системе. См. документацию
DjVu Imager v2.9
1,17 МБ

Есть

Авторы: Алексей Крюков, monday2000 Программа для вставки иллюстраций в DjVu-книгу.
Исходники (73 КБ) для MSVC++ 6.

Небольшой FAQ по DjVu-программам (Часто Задаваемые Вопросы):

1. Что это за формат такой — «DjVu»? Зачем он? Что он из себя представляет?
2. Как именно пользоваться форматом DjVu?
3. Какой программой кодировать файлы в формат DjVu (OC Windows)?
4. Какой программой декодировать DjVu-файлы в обычные графические файлы (OC Windows)?
5. Как декодировать один многостраничный DjVu-файл во множество одностраничных (обычных) графических файлов?
6. Как собрать многостраничный DjVu-файл из множества одностраничных DjVu-файлов?

7. Как добавить одностраничный DjVu-файл в имеющийся многостраничный DjVu-файл?
8. Чем просматривать DjVu-файлы (OC Windows)?
9. Как напрямую переконвертировать Pdf-файл в DjVu-файл (Pdf -> DjVu)?
10. Как напрямую переконвертировать DjVu-файл в Pdf-файл?
11. Как напрямую переконвертировать DjVu-файл в Word’овский Doc-файл?
12. Что делать, если при открытии DjVu-файла в программе DjVuSolo v3.1 NonComm она выдаёт сообщение: «DjVu Decoder: Cannot decode DjVu files with version >=25»?
13. Имеют ли DjVu-файлы встроенный текстовый OCR-слой?
14. Зачем вставлять текстовый OCR-слой в DjVu-файл?
15. Как разобрать многостраничный DjVu-файл на одностраничные DjVu-файлы?
16. Что делать, если у меня ни один DjVu-просмотрщик не работает?
17. Почему не следует использовать один большой словарь на всю книгу при кодировании в DjVu?
18. Как распечатать файл формата DjVu?
19. Как напрямую преобразовать Word’овский Doc-файл в файл формата DjVu?
20. Как закодировать множество одностраничных графических файлов в соответствующее множество одностраничных DjVu-файлов?
21. Как закодировать в DjVu цветные журналы?
22. Как осуществлять полнотекстовый поиск по страницам множества DjVu-книг?


1. Что это за формат такой - «DjVu»? Зачем он? Что он из себя представляет?

DjVu («Дежавю») — это графический формат. То есть DjVu-файлы   — это просто «картинки». Основное полезное свойство формата DjVu состоит в том, что он умеет наиболее хорошо (по сравнению со всеми остальными графическими форматами) «сжимать» сканированные изображения страниц бумажных книг — из-за чего этот формат широко применяется для создания электронных версий бумажных книг. Более подробную информацию о формате DjVu смотрите на главной странице сайта.

2. Как именно пользоваться форматом DjVu?

Как правило, это делается так: сначала необходимо каким-либо способом получить обычные графические файлы — «картинки» — содержащие изображения страниц бумажных книг. Обычно их получают путём сканирования бумажных книг. Потом эти обычные графические файлы кодируют в формат DjVu, отчего их размер сильно уменьшается — без потери качества изображения текста. Полученный DjVu-файл используется как электронная книга: его можно читать с экрана монитора, можно обмениваться друг с другом такими самодельными файлами через Интернет, можно распечатывать на принтере.

Но вообще-то закодировать в формат DjVu можно и текстовый файл (посредством виртуального DjVu-принтера) — только вряд ли это имеет смысл - текстовый файл всегда занимает гораздо меньший размер, чем любой соответствующий ему графический файл.

3. Какой программой кодировать файлы в формат DjVu (OC Windows)?

Используйте DjVu Small. Эта программа использует «фирменные» консольные утилиты от LizardTech - поэтому она ничем не хуже оригинального пакета LizardTech Document Express Enterpise with DjVu 5.1. Зато DjVu Small более удобна в работе и имеет маленький размер.

Кроме того, для этой цели можно использовать программы: LizardTech Document Express Enterpise with DjVu 5.1 (DEE 5.1), LizardTech Document Express Enterpise with DjVu 5.1 Light Edition (DEE 5.1 LE), Document Express Editor (5 или 6 версии), DjVu Solo 3.1. Однако все эти программы по разным причинам менее предпочтительны (либо они огромного размера, что затрудняет скачивание, либо крайне неудобны для пакетного кодирования).

4. Какой программой декодировать DjVu-файлы в обычные графические файлы (OC Windows)?

Используйте DjVu OCR 2 или выше. Это единственная программа, которая не даёт сбой при декодировании, если в многостраничном DjVu-файле некоторые «страницы» повреждены.

Кроме того, для этой цели можно использовать программы: DjVu Small, Irfan View + Irfan View DjVu Plugin v3.95 или выше, и любой обычный виртуальный принтер. Однако все эти программы по разным причинам менее предпочтительны (или это вероятность сбоя, или относительная сложность настройки).

5. Как декодировать один многостраничный DjVu-файл во множество одностраничных (обычных) графических файлов?

Используйте DjVu OCR 2 или выше. Он принимает на входе один многостраничный файл и декодирует его во множество одностраничных простых графических файлов.

Кстати — это вообще один из практических приёмов работы с форматом DjVu — преимущественная работа с многостраничными файлами. Если мы, работая с обычными графическими файлами, стараемся иметь дело в основном с одностраничными файлами (хотя бывают и многостраничные простые графические файлы), то в случае DjVu — наоборот — все стараются иметь дело с одним многостраничным DjVu-файлом, нежели чем с множеством составляющих его одностраничных DjVu-файлов. Это объясняется тем фактом, что обычные графические файлы мы можем редактировать, а DjVu-файлы — нет, а можем только просматривать их и декодировать в обычные файлы.

Поэтому Вы даже не сможете напрямую преобразовать множество одностраничных DjVu-файлов в соответствующее ему множество простых одностраничных графических файлов — Вам потребуется сначала собрать имеющееся множество одностраничных DjVu-файлов в один многостраничный DjVu-файл, и только потом декодировать его в желаемое множество простых одностраничных графических файлов — это политика LizardTech (судя по DEE 5.1) — поэтому она реализована также и в DjVu Small.

Добавлено 28.02.2011: На сегодняшний день наиболее рекомендованная программа для декодирования DjVu - это MiniDjVu Plus v1.3 (893 КБ). Пока что это единственная программа, которая при декодировании «битых» страниц многостраничного DjVu-файла (а также пустых белых) создаёт чистые белые листы (а все остальные программы в лучшем случае просто пропускают такие DjVu-страницы при декодировании). В дальнейшем такой функционал планируется добавить в DjVu Small.

6. Как собрать многостраничный DjVu-файл из множества одностраничных DjVu-файлов?

Используйте Document Express Editor v5.0.0 Build 16 plus (без OCR и справки). Откройте в нём первый в последовательности одностраничный DjVu-файл, затем выберите в меню Edit -> Insert Page(s) After…, выберите в появившемся окне все остальные одностраничные DjVu-файлы из данной последовательности, и сохраните полученный многостраничный файл.

7. Как добавить одностраничный DjVu-файл в имеющийся многостраничный DjVu-файл?

См. предыдущий вопрос — нужно проделать точно такие же действия, только добавлять надо не множество, а один данный одностраничный DjVu-файл.

8. Чем просматривать DjVu-файлы (OC Windows)?

Используйте WinDjView. Это наилучший выбор — данная программа превосходит все прочие DjVu-просмотрщики — и даже «фирменный» броузерный DjVu-плагин от LizardTech.

9. Как напрямую переконвертировать Pdf-файл в DjVu-файл (Pdf -> DjVu)?

Для именно прямой конвертации используйте пакет Pdftodjvu LE. Преимущество такой конвертации в том, что при этом из Pdf-файла в DjVu-файл переносится OCR-слой и гиперссылки (но иногда бывают проблемы с русскими кодировками).

Однако, далеко не всегда имеет смысл делать именно прямую конвертацию Pdf -> DjVu. В отличие от формата DjVu, формат Pdf не является графическим. Формат Pdf — это формат-контейнер, который может содержать любой тип данных — текст, картинки, таблицы, даже аудио- и видеоинформацию. Формат Pdf обычно делится на такие виды:

Векторный: в таком Pdf-файле содержится только символьная информация — текст, таблицы, графики, формулы, чертежи. Такие Pdf-файлы (внешне они выглядят как текст, набранный типографским шрифтом) лучше всего конвертировать в формат DjVu напрямую — получите отличное качество и наименьший размер DjVu-файла.

Растровый: в таком Pdf-файле содержится только неформализованная информация — растровые картинки. Такие Pdf-файлы (внешне они выглядят как сканированное изображение текста) лучше всего конвертировать в формат DjVu НЕ напрямую — а по схеме «Pdf -> Tif -> DjVu». Всё дело в том, что прямой конвертер Pdftodjvu LE «заточен» именно на векторные Pdf-файлы, а растровые он плохо кодирует — получаются большие DjVu-файлы.

Растрово-векторный: Такие Pdf-файлы, как правило, лучше конвертировать в формат DjVu НЕ напрямую — по схеме «Pdf -> Tif -> DjVu». И только в отдельных редких случаях можно применить прямое конвертирование «Pdf -> DjVu». Всё это зависит от конкретного Pdf-файла, от вида и соотношения растрового и векторного содержимого. Попробуйте оба варианта конвертирования и выберите наилучший.

10. Как напрямую переконвертировать DjVu-файл в Pdf-файл?

Это можно сделать при помощи какого-либо обычного виртуального принтера, например, Acrobat Distiller (устанавливается автоматически при инсталляции полного Adobe Acrobat (не-Reader’а) (показал наилучший результат), FinePrint v5.29, pdfFactory или LEADTOOLS ePrint v4.0. Правда, не все они корректно работают с русским языком.

При такой конвертации OCR-слой и гиперссылки не переносятся из DjVu-файла в Pdf-файл.

И ещё тут есть одна тонкость: если Вы печатаете из броузерного DjVu-плагина, то нельзя отправлять файл на печать выбором в пункте меню броузера «Файл» подпункта «Печать» — из-за этого DjVu-файл напечатается в виде пустых листов (видимо, какая-то ошибка реализации), а надо, кликнув правой кнопкой мыши на отображении файла в броузере, выбрать в контекстном меню пункт «Print…» и т.д.

11. Как напрямую переконвертировать DjVu-файл в Word’овский Doc-файл?

Это невозможно. Формат DjVu — это графический, а не текстовый формат. Поэтому DjVu-файлы не содержат никакой информации о структуре документа — в лучшем случае только внедрённый текстовый OCR-слой — так что информацию для подобной прямой переконвертации брать в DjVu-файле просто неоткуда.

Поэтому для создания Word’овского Doc-файла из DjVu-файла используется традиционный путь: DjVu-файл преобразуется в какой-нибудь обычный графический формат (см. п.5) и распознаётся в ABBYY FineReader v7.0 (или v8.0). В последних релизах ABBYY FineReader v9.0 предусмотрена прямая поддержка на чтение формата DjVu (при формировании пакета на распознавание).

12. Что делать, если при открытии DjVu-файла в программе DjVuSolo v3.1 NonComm она выдаёт сообщение: «DjVu Decoder: Cannot decode DjVu files with version >=25»?

Есть 2 способа решения этой проблемы:

А. Открывать этот файл и работать с ним в Document Express Editor v5.0.0 Build 16 plus (без OCR и справки) (2,0 МБ), а не в DjVuSolo v3.1 NonComm.

Б. Понизить версию этого djvu-файла при помощи утилиты DjVuVersion и тогда станет возможной полноценная работа с ним в DjVuSolo v3.1 NonComm.

13. Имеют ли DjVu-файлы встроенный текстовый OCR-слой?

И да, и нет. То есть возможность добавить в DjVu-файл текстовый OCR-слой существует (предусмотрена cпецификациями DjVu). Обычно содержимое DjVu-файла распознаётся посредством ABBYY FineReader v7.0 (или v8.0) и затем результат распознавания вставляется в DjVu-файл посредством программы DjVuOCR 2.1.

Но в то же время, есть и множество DjVu-файлов, где такой текстовый слой отсутствует (т.е. не был никем создан и вставлен) — потому-то и существует до сих пор ошибочное мнение, что DjVu-файл якобы не поддерживает встроенный OCR-слой.

14. Зачем вставлять текстовый OCR-слой в DjVu-файл?

Вопрос не так прост, как может показаться. Есть люди, которые делают DjVu-книги (т.е. DjVu-файлы) и умышленно не вставляют туда OCR-слой — т.к. из-за этого возрастает размер эл. книги и поэтому её становится дороже скачать из Интернета.

Обычно текстовый OCR-слой вставляют в DjVu-книгу просто для удобства — чтобы, читая такую книгу, можно было бы выделить мышкой нужный кусочек текста, скопировать его в буфер и вставить в текстовый файл.

Кстати — встроенный текстовый OCR-слой НЕ содержит никакой информации о структуре документа — это всего лишь простой сплошной текст без какого-либо форматирования (хотя в DjVu-файле при этом ещё имеется служебная информация и местоположении слов (или букв — опционально) текста).

Но есть и неизмеримо более важная и менее очевидная причина — почему нужно вставлять текстовый OCR-слой в DjVu-книги — для того, чтобы обеспечить возможность поиска информации внутри множества DjVu-книг по ключевым словам (если это не нужно Вам лично — то это потребуется тем, кто будет пользоваться Вашей книгой в числе прочих).

Для такого поиска используют разные программные средства — например, Google Desktop Search + DjVu Indexer Plugin или (что лучше всего) dtSearch + LizardTech DjVu iFilter.

В пределах одной DjVu-книги можно искать по ключевому слову прямо в DjVu-просмотрщике - например, в WinDjView (в броузерном DjVu-плагине тоже можно).

Не исключено, что когда-нибудь и популярные поисковые сервера Интернета сделают у себя поддержку такой возможности (хотя пока, к сожалению, налицо прямо противоположная тенденция).

Однако, далеко не во все DjVu-книги имеет смысл вставлять текстовый OCR-слой — в основном, только в DjVu-книги учебно-справочного характера. Скажем, в развлекательные DjVu-книги (например, о плаваниях капитана Кусто) вставлять текстовый OCR-слой смысла почти нет.

15. Как разобрать многостраничный DjVu-файл на одностраничные DjVu-файлы?

А зачем это Вам? Подобная необходимость практически никогда не должна возникать. Хотите декодировать многостраничный DjVu-файл в набор простых одностраничных графических файлов? Или же переконвертировать его в Pdf? Или осуществить иное преобразование? Так для этого вовсе не надо предварительно разбирать многостраничный DjVu-файл на составляющие его «страницы»- см. предыдущие вопросы.

Общий принцип таков:

С форматом DjVu наиболее удобно работать в форме многостраничных файлов — а не в форме соответствующего множества одностраничных DjVu-файлов.

А как же быть, если Вы хотите сделать выборку из имеющегося многостраничного DjVu-файла — то есть Вам нужно оформить некое подмножество «страниц» многостраничного DjVu-файла как новый отдельный многостраничный DjVu-файл?

Наиболее правильно это можно сделать так: декодируйте желаемый диапазон «страниц» многостраничного DjVu-файла в соответствующий ему набор простых одностраничных графических файлов (при помощи DjVu Small), а потом закодируйте полученные одностраничные графические файлы в новый DjVu-файл (также при помощи DjVu Small; и сделайте OCR по необходимости).

А почему же эту задачу нельзя выполнить разборкой-сборкой многостраничного DjVu-файла? И можно ли вообще проделать подобную разборку-сборку?

Да, такую разборку-сборку проделать можно. Но крайне нежелательно — сильно увеличивается размер файла. Причина в том, что при создании многостраничного DjVu-файла любой LizardTech DjVu-кодировщик использует т.н. «словари» (другое название — «djbz-словари»). Словарь — это особенная уловка для снижения размера многостраничного DjVu-файла. Словарь содержит список геометрических форм, повторяющихся на ряде DjVu-страниц и общих для них. Как правило, это буквы текста. Словарь обычно автоматически создаётся для каждых 10-20 страниц (это настраиваемый параметр) многостраничного DjVu-файла DjVu-кодировщиком при кодировании и автоматически интегрируется в получающийся многостраничный DjVu-файл.

Таким образом, в многостраничном DjVu-файле словари повторяются через каждые 10-20 страниц, и в словарях хранятся символы, общие для соответствующей группы 10-20 страниц — что в итоге даёт солидное снижение размера многостраничного DjVu-файла.

Практически все нынешние многостраничные DjVu-файлы имеют такие встроенные словари.

При разборке многостраничного DjVu-файла на одностраничные разбирающей программе приходится добавлять символы словаря в каждый полученный одностраничный DjVu-файл — что приводит к росту их размера. У меня в тестовом примере получилось увеличение примерно в полтора раза. И при обратной сборке полученных одностраничных DjVu-файлов результирующий многостраничный DjVu-файл остаётся с завышенным размером, равным сумме размеров «собранных» одностраничных DjVu-файлов — то есть словари не восстанавливаются при сборке.

Если же Вам, несмотря на все эти объяснения, всё-таки хочется проделать подобную разборку-сборку, то приведу описание этой процедуры.

Начнём с разборки: для этой операции можно использовать Document Express Editor v5.0.0 Build 16 plus (без OCR и справки) — выделять вручную отдельно каждую «страницу» в многостраничном DjVu-файле и сохранять её отдельно через «Save Page As…» - получите соответствующий набор одностраничных DjVu-файлов.

Однако, подобный ручной способ разборки неприемлем для больших DjVu-файлов. Для облегчения этой процедуры я сделал специальную простейшую консольную программу DjVu Unbundler (275 КБ).

Сборку полученных «разобранных» одностраничных DjVu-файлов можно осуществлять как обычно — при помощи программы Document Express Editor v5.0.0 Build 16 plus (без OCR и справки) — см. вопрос № 6.

16. Что делать, если у меня ни один DjVu-просмотрщик не работает?

Отключите 2-е ядро на своём 2-ядерном микропроцессоре (Хотя бы при помощи диспетчера задач) — и всё заработает.

17. Почему не следует использовать один большой словарь на всю книгу при кодировании в DjVu?

Отвечает Cptn_Cook:

1) Если файл смотрится по сети, то ничего не отобразится, пока не загрузится весь нужный словарь. Для типичной книги, словарь имеет размер 200-300 KB, для модема это существенно.

2) Если редактировать DjVu-файл при помощи DjVuLibre, то резка и склейка очень быстро приводит к тому, что словари начинают повторяться (не трудно понять, почему). При этом, если словарь порядка 10 КБ, то это не страшно, а если 200 КБ, то уже неприятно.

3) DjVu — довольно устойчивый к ошибкам формат, но если ошибка возникает в словаре, то ни одна страница, которая этим словарем пользуется, не отобразится (читай, вся книга при pages-per-dict = 10000).

4) Книга с одним большим словарём медленнее открывается в DjVu-просмотрщике — это заметно на глаз и вызывает раздражение у пользователя.

5) Большой словарь потребляет слишком много оперативной памяти — при работе с WinDjView.

На самом деле, совершенно не обязательно делать pages-per-dict = 10000. Такое значение дает выигрыш в размере файла 20%, но если использовать pages-per-dict = 20, то выигрыш (по сравнению с pages-per-dict = 10) 10%. Похоже, это неплохой компромис. Между прочим, any2djvu использовал pages-per-dict = 20, но потом поменял на pages-per-dict = 10, наверное потому, что в этом случае обработка быстрее.

18. Как распечатать файл формата DjVu?

Скачайте и установите программу WinDjView. Откройте в ней DjVu-файл, выберите в меню пункт «Файл» - «Печать» и распечатайте его.

19. Как напрямую преобразовать Word’овский Doc-файл в файл формата DjVu?

Есть 2 варианта:

1. Установите программу «виртуальный DjVu-принтер» и, открыв Doc-файл в Word’е, отправьте его на печать на этот виртуальный принтер.

2. Если у Вас стоит MS Word 2007, то скачайте с http://tokage.celartem.com/beta Office 2007 DjVu Exporter, проинсталлируйте его и, открыв Doc-файл в Word’е 2007, сохраните его в формат DjVu.

20. Как закодировать множество одностраничных графических файлов в соответствующее множество одностраничных DjVu-файлов?

Лучше не делать этого. Наиболее правильно кодировать множество обычных графических файлов в один многостраничный DjVu-файл — т.к. при этом создаются словари разделённых символов, что заметно снижает размер получаемого DjVu-файла.

Если Вам это всё-таки действительно очень нужно, то используйте Document Express Enterprise 5.1 (можно Light Edition).

21. Как закодировать в DjVu цветные журналы?

Кодируйте обработанные сканы целиком либо в DjVuPhoto (при помощи DjVu Small или MiniDjVu Plus), либо в PDF-JPEG2000 (Adobe Acrobat Pro).

22. Как осуществлять полнотекстовый поиск по страницам множества DjVu-книг?

1. Яндекс Персональный поиск. http://desktop.yandex.ru/ . Самое рекомендуемое решение. Свободно-бесплатная программа.

2. Архивариус 3000 (коммерческая программа). Очень хороший вариант.

3. Google Desktop Search + DjVu Plugin к нему http://desktop.google.com/plugins/search/?query=djvu.

4. dtSearch + DjVu Shell Extension Pack http://www.caminova.net/en/downloads/


Копирайт и электронные библиотеки

Путин разобрался с интернет-библиотеками  (С 28.07.2004 вступил в силу новый «Закон об авторских и смежных правах»)

…Автора!  (Е. Любарская)  (Очень важная статья - разъяснение текущего состояния эл. копирайта - прочитать обязательно!)

При Минпечати создается группа для решения проблемы электронных библиотек  (статья от 14.12.2004)

На пути к абсолютному знанию — 2  (Общие рассуждения о возможности и необходимости изменения российского копирайтного законодательства с целью учёта существования электронных библиотек)

Lib.Ru: О копирайтах и др.


Автор: monday2000.

Дата создания: 3 ноября 2006 г.

Последнее обновление: 4 апреля 2011 г.

Примечание: На этой странице всегда находятся самые свежие и актуальные версии наиболее важных DjVu-программ.

E-Mail  (monday2000 [at] yandex.ru)


djvu-soft.narod.ru

Базовые понятия DjVu-книгосканирования

Базовые понятия DjVu-книгосканирования

Вернуться к разделу «Материалы по сканированию и оцифровке бумажных книг».


Базовые понятия DjVu-книгосканирования

В этой небольшой статье собран список общих понятий и терминов, которые необходимо знать каждому, кто сканирует бумажные книги в формат DjVu. Здесь вынужденно даётся лишь краткое описание — подробнее ищите в Интернете, а также в русско- и англоязычной Википедии.

Если Вы сканируете книги для DjVu - проверьте себя — знаете ли Вы эти понятия.

Основные постулаты

(Советы опытных книгосканировщиков)

Наиболее важные:

1. Не используйте программу ABBYY FineReader версий 7, 8 или ниже для сканирования книг. Она корёжит получаемые скан-изображения страниц книги. Можно использовать программу ABBYY FineReader 9 для этого — но перед сканированием сбросьте там в опциях галку «Исправить перекос изображения«.

2. Не сканируйте книги в чёрно-белом режиме (Black-White или Line Art или 1-bit), а ТОЛЬКО в режиме серого (Greyscale, или 8-bit) или цветного (Color, или 32-bit) — если книга содержит цветные рисунки. Сканирование в чёрно-белом режиме приводит в итоге к необратимому ухудшению качества получаемой DjVu-эл.книги. Данный режим сканирования задаётся в интерфейсе сканера — т.е. в том окне, которое появляется после нажатия в программе кнопки «Сканировать».

3. Не сканируйте в формат JPG. Формат JPG «размывает» скан-изображения страниц книги.

4. Не используйте опцию «Заменять неуверенно-распознанные символы их изображениями» — когда создаёте Pdf-эл.книгу в ABBYY FineReader — такие эл. книги выглядят ужасно.

Прочее:

5. Сканируйте книги в формат TIF и с разрешением не менее 300 DPI. Для наиболее высокого качества сканируйте с разрешением 600 DPI.

6. Не пожалейте 2-3 вечера и освойте использование таких программ, как ScanKromsator 5.93 и BookRestorer 4.2.1. Эти программы позволяют радикально облагородить «сырые» сканы (т.е. получаемые непосредственно от сканера) перед закодированием их в формат DjVu.

7. Не используйте формат Pdf для создания электронной версии бумажной книги. Взамен используйте формат DjVu (кроме случаев полной ручной свёрстки текстовой Pdf-эл.книги). Электронные книги в формате DjVu занимают меньший размер (по сравнению с Pdf), не «тормозят» в просмотрщике (в отличие от Pdf), и имеют более чёткий текст, чем Pdf.

8. Для просмотра файлов в формате DjVu под Windows используйте программу WinDjView — все прочие варианты значительно хуже.

9. Сохраняйте полученные «сырые» сканы книг на болванку (CD-R или DVD+R) — чтобы обезопасить себя от их случайной утраты.


Что такое «качественная» DjVu-книга? Каков именно максимальный уровень качества, который можно достичь при создании DjVu-книги? Чтобы ответить для себя на эти вопросы, посмотрите для образца:

Пример качественной DjVu-книги (554 КБ)  (Для просмотра необходима программа WinDjView).


Концептуальная схема DjVu-книгосканирования

1. Сканирование бумажной книги. В результате получаются т.н. «сырые сканы»- серые или цветные необработанные изображения страниц книги. Смысл — получение «сырья» для будущей электронной книги. Рекомендуемая программа — Irfan View.

2. Обработка сырых сканов. Это «облагораживание» сырых сканов (другое название — «кромсание»). Смысл — задать хорошее качество будующей электронной книги. Иначе (если довольствоваться «сырыми сканами») такой электронной книгой будет практически невозможно воспользоваться. Рекомендуемая программа — ScanKromsator, BookRestorer.

3. Кодирование обработанных сканов в формат DjVu (можно в Pdf, но это хуже). Смысл — радикально уменьшить размер «облагороженных» сканов без серьёзной потери качества. В результате электронными книгами столь малого размера становится возможным обмениваться через Интернет. Есть и другие плюсы. Рекомендуемая программа — DjVu Small, Document Express Enterprise 5.1 (DEE 5.1).

4. Добавление текстового OCR-слоя (не обязательно). Смысл — дать читателям возможность копирования цитат, а также поиска по ключевым словам. Обе эти возможности довольно нужны и важны. Рекомендуемая программа — ABBYY FineReader 8.0, DjvuOCR 2 и выше.

Примечание: Перечисленные программы можно скачать в разделе Итоги по DjVu-программам.


Основные термины

Двоичное исчисление — Способ записи любого числа при помощи единиц и нулей. Производные понятия — «восьмеричное исчисление», «шестнадцатеричное исчисление». См. Описание.

Растровое изображение - Неформализованная картинка, хранимая в виде массива пикселей.

Векторное изображение - Формализованная картинка, хранимая в виде команд на построение изображения. См. Описание

Пиксель — Элементарный элемент растрового изображения. Имеет монотонный цвет по всей своей площади.

Глубина цвета — Битовая разрядность растрового изображения. Количество бит, выделяемое для описания одного пикселя изображения, например: 1 — для чёрно-белого (или B/W), 8 — для серого (или Grey), 24 — для цветного (или Color).

Чтобы выяснить глубину цвета данного файла, нужно щёлкнуть правой кнопкой мыши на пиктограмме файла, и выбрать (в WinXP): Свойства -> Вкладка «Сводка» -> Кнопка «Дополнительно»:

BW (или B/W) — Чёрно-белое изображение, т.е. «Black and White». Каждый пиксель описан 1 битом, поэтому изображение содержит лишь 2 цвета — чёрный и белый. Часто называется также «битмап» (bitmap) или «чёрно-белые сканы», или «bw», а также «Line Art» — штриховая графика.

Greyscale (или Grayscale) — Серое изображение. Каждый пиксель описан 1 байтом (т.е. 8 бит), поэтому изображение содержит 256 оттенков серого цвета. Часто называется также «изображение в градациях серого», или «полутоновое изображение», или просто «серые сканы».

Color — Цветное изображение. Каждый пиксель описан 4 байтами (т.е. 32 бита) и формируется из смеси красного, синего, зелёного цветов (по 1 байту на каждый такой канал цвета) плюс 1 байт идёт на описание прозрачности, поэтому изображение содержит 16,7 млн. цветных оттенков.

Бинаризация — Процедура преобразования из Greyscale или Color в BW. Может быть (в зависимости от алгоритма) пороговой, адаптивной, энтропийной, и т.д.

Порог бинаризации — Номер серого цвета, всё светлее которого становится белым, а всё темнее — чёрным (при бинаризации).

Разрешение — Условная величина. Количество пикселей на единицу условной метрической длины растрового изображения. Измеряется в DPI (dots per inch) — «точек на дюйм». Значение DPI, длина и ширина изображения в пикселях хранятся в заголовке растрового файла - и, исходя из этих параметров, графические программы вычисляют условные метрические длину и ширину растрового файла (в дюймах или сантиметрах).

Ресемплинг — (англ. «Resampling» - «Перевыборка» ). Процедура «переразбиения» на пиксели растрового изображения — ради увеличения/уменьшения количества пикселей изображения. При этом всегда изменяется разрешение (DPI) и всегда меняется размер файла растрового изображения. Не путать с «ресайзингом» — изменением условных метрических размеров изображения с пропорциональным изменением его разрешения — при этом размера файла изображения НЕ МЕНЯЕТСЯ. См. Описание.

Повышающий ресемплинг (или Апсемплинг — от англ. «Upsampling»). Частный случай ресемплинга. Процедура увеличения количества пикселей в изображении за счёт интерполяции цветов соседних пикселей. Не добавляет реальную информацию в изображение.

Понижающий ресемплинг (или Даунсемплинг — от англ. «Downsampling»). Частный случай ресемплинга. Процедура уменьшения количества пикселей в изображении. Необратимо уменьшает реальную информацию в изображении. Также называется ещё «Субдискретизация».

Яркость — Субъективный показатель «осветлённости» изображения. Влияет на все пиксели изображения. Большая или меньшая яркость задаётся просто оптовым увеличением/уменьшением номеров цветов всех пикселей изображения.

Контрастность — Степень «различности» самых светлых и самых тёмных пикселей изображения. При увеличении контрастности пикселы, имеющие яркость выше некоторого значения, приобретают еще большую яркость, а пикселы, имеющие яркость ниже некоторого значения, становятся еще темнее.

Гамма — Параметр, влияющий на среднеяркие пиксели («антипод» контрастности). При изменении гаммы самые светлые и самые тёмные пиксели изображения не меняются.

Гистограмма — Линейно-столбчатый график, отображающий процентное распределение яркости по всем пикселям изображения. Служит наглядным измерительным инструментом, характеризующим изображение. См. Описание.

Муар — Нежелательный узор, возникающий при наложении двух периодических сетчатых рисунков. См. Описание.

Dithering (Дизеринг, или «Растрирование», а также «Клиширование») — Автоматическая процедура, преобразующая Greyscale-изображение в чёрно-белое особым способом — исходное изображение рисуется мелкими чёрно-белыми точками одинакового размера, но через точно алгоритмически рассчитанное расстояние друг от друга. В результате достигается оптическая иллюзия исходного Greyscale-изображения, хотя рисунок уже на самом деле чёрно-белый. Dithering применяется для бинаризации Greyscale-рисунков на сканах книг, т.к. обычная бинаризация нередко портит такие рисунки. См. Описание.

Deskew — (От англ. «skew» — наклон, склон, скос, уклон). «Дескью» (также «Ортогонизация»), или автоматическая процедура устранения углового перекоса страницы.

Когда мы сканируем лист бумаги с текстом, то, как правило, кладём этот лист на стекло сканера не строго параллельно сторонам сканера — а под небольшим углом. Поэтому на полученном скане строки текста выглядят не горизонтально. Алгоритм Deskew автоматически вычисляет угол перекоса и поворачивает скан целиком на этот найденный угол так, чтобы строки текста стали горизонтальными.

Скан до Deskew

Скан после Deskew

Despeckle — (От англ. «speckle» — крапинка, пятнышко). «Деспекл», или автоматическая процедура удаления мелких «соринок» на скане. По своей природе работает только на чёрно-белых сканах — на Greyscale и Color сканы не оказывает должного эффекта.

При сканировании текста на полученном скане часто оказываются многочисленные мелкие и мельчайшие тёмные «крапинки» (спеклы) — из-за высокой чувствительности сканирующей головки сканера. Алгоритм Despeckle автоматически удаляет такой «мусор» со скана.

Скан до Despeckle

Скан после Despeckle

DPI — См. пункт «Разрешение«.

TWAIN-интерфейс — Стандартизованный программный язык, при помощи которого сканирующая программа «общается» со сканером. Необходим для того, чтобы любая сканирующая программа могла «понимать» любой сканер. Большинство современных сканеров поддерживают TWAIN-интерфейс.

Anti-aliasing — Процедура сглаживания «зубцов» кривых линий на растровых изображениях. См. Описание.

OCROptical Character Recognition — технология автоматического распознавания текста на его сканированном изображении. Это основная цель такой программы, как, например, ABBYY FineReader.


Форматы растровой графики

Основной рабочий графический формат при DjVu-сканировании — это формат TIF. Он включает в себя несколько «подформатов» или режимов — без сжатия, со сжатием, и т.д. Обратите внимание на 2 популярных режима (со сжатием данных) TIF-файла:

Режим LZW — применяется в серых и цветных TIF-файлах.

Режим CCIT FAX G4 — применяется в чёрно-белых TIF-файлах.

Важная деталь: оба этих режима дают сжатие БЕЗ ПОТЕРЬ (каждый для своего класса глубины цвета).

Эти 2 режима наиболее широко применяются в сканобработке (т.к. они дают наименьший «естественный» размер файлов).

Сжатие LZW обычно никогда не применяется для 1-битных TIF-файлов — поскольку сжатие CCIT FAX G4 примерно в 2 раза эффективнее, чем LZW для чёрно-белого.

Возьмите любой TIF-файл и попробуйте сохранить его в режимах TIF (LZW) или TIF (CCIT FAX G4) в каком-нибудь графической программе — например, Irfan View или ACDSee. Посмотрите, насколько при этом уменьшился размер файла. Обратите внимание, что при сохранении серого или цветного изображения в режиме CCIT FAX G4 оно автоматически становится чёрно-белым.

Кроме того, ознакомьтесь с наиболее популярными форматами растровой графики.


Термины, используемые при работе с программой СканКромсатор

Сдвоенный разворот

Одиночный разворот

Сдвоенный разворот — Скан, на котором видны изображения 2-х соседних страниц бумажной книги. Такие сканы получаются в случае малоформатных бумажных книг — когда весь разворот целиком помещается на стекле A4-сканера.

Левая страница — Изображение левой страницы книги на сдвоенном развороте.

Правая страница — Изображение правой страницы книги на сдвоенном развороте.

Одиночный разворот — Скан, на котором видно изображение только одной страницы бумажной книги. Такие сканы получаются в случае крупноформатных бумажных книг — когда на стекле A4-сканера помещается только одна страница книги (а не разворот).

Ошмёток — Бесполезная часть соседней страницы (на одиночном развороте) в виде вертикальной полосы.

ОВ-символ — Малоразмерные смысловые элементы текста, далеко отстоящие от основной массы текста на скане. Например, номера страниц, элементы оглавления, значки параграфов, подписи к рисункам. Алгоритму, распознающему на скане положение контура текста, трудно опознать эти элементы как смысловые — для этого потребовалось бы проводить полноценный OCR текста на скане.


Понятия, используемые при работе с форматом DjVu

1. Тип DjVu-файла

Чтобы узнать, какой перед нами тип DjVu-файла, откройте его в WinDjView, и щёлкните правой кнопкой мыши на его изображении. В появившемся контекстном меню появится пункт «Информация о странице». Если выбрать этот пункт, то мы увидим примерно такое окно:

Серый или цветной DjVu-файл

Чёрно-белый DjVu-файл

Если в этом окне присутствуют многочисленные записи, содержащие слово «IW44» — значит, перед нами либо серый, либо цветной DjVu-файл. Если же в этом окне относительно мало записей, и нет упоминания о «IW44» — значит, это чёрно-белый DjVu-файл.

1. Наличие/отсутствие встроенного OCR-текста

Для того, чтобы узнать, содержит ли данный DjVu-файл встроенный OCR-текст, нажмите на панели управления WinDjView кнопку «Режим выделения» (с рисунком в виде буквы «I» и с маленьким чёрным треугольничком сбоку):

Курсор мыши примет такую форму: «I».

Затем попробуйте выделить курсором мыши произвольный участок текста. Если данный DjVu-файл содержит встроенный OCR-текст, то выделяемый мышью текст подсветится чёрным цветом:

Теперь можете щёлкнуть правой кнопкой мыши по произвольному месту подсвеченного чёрным текста и в появившемся контекстном меню выбрать пункт «Скопировать текст». При этом выделенный текст скопируется в буфер обмена, откуда его можно будет вставить в любой текстовый редактор - MS Word, NotePad, и т.п.

Существуют поисковые программы, которые осуществляют поиск по ключевым словам по группе DjVu-книг. Эти программы анализируют встроенный OCR-текст в каждой DjVu-книге из группы поиска.

3. Наличие/отсутствие букмарков

Букмарки (другие названия: Закладки, Дерево-оглавление, Bookmarks, Outline) — это навигационный механизм по DjVu-книге. Если DjVu-книга содержит букмарки, то тогда в WinDjView появляется дополнительная вкладка «Содержание». При нажатии на эту вкладку открывается окно содержания следующего вида:

Букмарки — это стандартный навигационный механизм, предусмотренный официальными спецификациями формата DjVu. Практически любой современный DjVu-просмотрщик способен отображать букмарки. Исключение составляет программа OpenDjVu - имеющая свой особый формат букмарков, несовместимый со стандартным.


Литература

Глава 2. Коррекция изображений (Из учебника «Иллюстрированный самоучитель по WEB-графике») — очень толковое описание некоторых базовых понятий растровой графики.


Автор: monday2000.

14 ноября 2007 г.

E-Mail  (monday2000 [at] yandex.ru)


djvu-soft.narod.ru