Все форумы > Как сканировать

> Все форумы > Тематические форумы > Plant science / Herba
[ Вход \| Регистрация ]	Помощь · Поиск · Участники · Календарь

Как сканировать

plantago, 04.06.2011 00:44

Решил открыть эту тему здесь. После того, как отсканируешь две тысячи книг, хочется поделиться опытом

Буду писать очень коротко, в форме полезных советов.

plantago, 04.06.2011 00:44

ТРИ ГЛАВНЫХ ПРИНЦИПА
1. Сканировать надо с разрешением не меньше 300 dpi
2. Сканы должны быть "серыми" или цветными
3. Для того, чтобы сделать электронную книгу, сканы надо обязательно обработать специальными программами (например, Scan Tailor)

plantago, 04.06.2011 00:45

И ОДИН ПОЛЕЗНЫЙ СОВЕТ
1. Необработанные файлы сканов нужно хранить -- чем дольше, тем лучше

plantago, 04.06.2011 00:48

ФОТОАППАРАТ ВМЕСТО СКАНЕРА
1. Фотографировать только по одной странице (не разворотами)*
2. Всегда использовать максимальный размер кадра
3. Нужны минимум два источника света (скажем, лампа и окно). Хотя фотографировать просто на подоконнике -- тоже неплохо, а лучше всего получается на улице в пасмурную погоду.
4. Держать фотоаппатат как можно параллельнее плоскости книги
4. Обязательно проверить резкость всех кадров и сразу же заменить негодные
5. Лист A4 для 300 dpi требует 18 мегапиксел (к счастью, бОльшая часть книг имеет страницы меньшего размера, скажем, для книги малого формата может быть достаточно и 6 мегапиксел).
===
* Я часто нарушаю это правило для экономии времени. Однако, надо убедиться что разрешение получившихся кадров достаточное.

plantago, 04.06.2011 00:55

СКАНЕР
1. Годится любой, но CIS-сканеры (типа Canon LiDE) очень чувствительны к расстоянию между бумагой и стеклом
2. Надо очень внимательно следить за неровностями бумаги, особенно изгибом у корешка. Потом никакой софт не поможет Вам, если на скане вместо текста -- размытые пятна
3. Сохранять изображения надо в TIFF 300 dpi со сжатием LZW (каждое слово здесь значимо)
4. Черно-белые и серые страницы сканировать в тонах серого (grayscale / greyscale), а обложки, цветные вклейки и т.п. сканировать в цвете
5. Карты и крупные вклейки сканировать по кускам, потом придется их соединять в специализированном панорамном софте или просто в GIMP/фотошопе, лучше всего -- перед обработкой.*
===
Или не склеивать

Я в последнее время перестал это делать, но, что интересно, пользоваться несклеенными картами вполне удобно (таблицами -- менее удобно, но терпимо).

plantago, 04.06.2011 01:00

ОБРАБОТКА
1. Собственно, есть только одна вменяемая программа обработки -- Scan Tailor
2. Перед обработкой обязательно проверить разрешение исходных сканов (как -- см. ниже)
3. После выделения "полезных зон" проверить все страницы на предмет отрезанных кусков текста и лишнего белого места
4. На этапе полей уменьшить поля по умолчанию, и исключить страницы с очень большой шириной или высотой из выравнивания (нужно воспользоваться сортировкой по размеру). Если этого не сделать, поля будут слишком велики.
5. На этапе вывода -- обязательно выводить в 600 dpi!

plantago, 04.06.2011 01:07

РАЗРЕШЕНИЕ
1. Очень рекомендую поставить нормальный просмотрщик изображений, например, IrfanView
2. Надо посмотреть, какое разрешение записано в файле (формат TIFF хранит информацию о разрешении), и если что-то не так -- проверить при помощи правила 6,5 строчек
3. Правило 6,5 строчек: высота 6-7 строчек средней книги (в пикселах) примерно равна разрешению. Вот как это делается в IrfanView:

У этого изображения разрешение 600 dpi, потому что высота 6,5 строчек примерно равна 600 пикселам.

plantago, 04.06.2011 01:14

DjVu ИЛИ PDF
1. Из DjVu очень легко сделать PDF, наоборот -- гораздо труднее
2. Сделать DjVu гораздо труднее, чем сделать PDF, причем некачественный и не поддающийся исправлению DjVu сделать легче качественного
3. DjVu всегда будет в 2-5 раз компактнее PDF (если PDF собран из сканов), а при одинаковом размере -- будет в несколько раз быстрее листаться и занимать сильно меньше оперативной памяти
4. DjVu не "портит изображения", если кто-то так думает, то он просто не умеет его готовить (с)

plantago, 04.06.2011 01:17

Ну вот, самые общие советы кончились. Нужны ли более частные советы, скажем, как именно делать DjVu, какой есть бесплатный софт для PDF, как добавлять текстовый слой для поиска, куда заливать файлы для обмена, можно ли использовать формат JPEG?

Linnaeus tuschinorum, 04.06.2011 17:11

Браво, plantago! Под многими советами и сам подпишусь, ибо самовыстраданы. Ждём продолжения ликбеза!

Konung, 06.06.2011 17:37

да, очень интересно! спасибо. более частные советы будут тоже интересны!

udaff, 16.08.2011 00:17

Руководство прекрасное, но хочется кое-что добавить.
Настоящие книги нужно делать так, как написано, не жалея на это времени.
Но что делать с не-настоящими книгами? Например с каким-нибудь второсортным периодическим изданием, которое выходит в фазе, близкой к жидкости (то бишь почти одна вода)?
Но при этом - часто.
Тратить на них столько времени - убивать свое. А сканить бывает надо.
Нужен вариант "лайт".
У меня для этого стандарт 150 dpi, без обработки, jpeg 10\12.
Есть и промежуточные варианты...
Получается, что добавляется третье измерение: шкала ценности книги.

udaff, 16.08.2011 00:25

И еще кое-какие моменты я бы предложил.
Важно заботиться о человеке, который будет читать.
Лично мне удобнее читать разворот, а не по отдельным страницам. Потому стараюсь сканить разворот. Актуальность вопроса: заметьте, что на многих сканерах разворот книги классического стандарта помещается еле-еле, надо стараться. Оператор будет выбирать, как книжку класть, и тогда данное соображение - стимул к сканированию разворота.

plantago, 18.08.2011 12:08

(udaff @ 15.08.2011 17:17)

У меня для этого стандарт 150 dpi, без обработки, jpeg 10\12.

Не могу с Вами согласиться. Книга, которая для Вас не очень ценна, может оказаться важной для другого человека. А скорость обработки не сильно разнится между 150 и 300. Я твердо решил, что ничего ниже 300 на входе и 600 на выходе я делать не буду, хотя раньше делал и по-другому. Единственное -- если сканировать на больших машинах сразу в черно-белое, то 300 и на входе, и на выходе -- приемлемо.

plantago, 11.01.2012 03:56

Как сделать из бумажной книги электронную
http://www.djvu-soft.narod.ru/scan/diagram.htm

plantago, 21.10.2013 01:55

ОБРАБОТКА ПЕРЕФОТОГРАФИРОВАННЫХ КНИГ
1) Все страницы с черно-белыми (полутоновыми, серыми) фото переконвертировать в "тона серого"
2) Запустить Scan Tailor как для сканов, но сразу же вручную выставить разрешение (см. выше про правило 6,5 строчек)
3) На этапе полезной области постараться вручную подравнять по остальным короткие (последние в главах, например) и узкие (некоторые рисунки и таблицы) страницы
4) На этапе создания полей присвоить всем одинаковые поля и снять выравнивание
5) На этом же этапе выровнять друг по другу 2-3 самые короткие и 2-3 самые узкие страницы
6) На этапе вывода попробовать задействовать автоматическое выправление искривлений (ориентировочно с первой страницы, заполненной текстом и до оглавления).
7) Выправление искривлений практически не работает на страницах с узкими колонками текста, коротких страницах и страницах, начинающихся с картинок. По опыту самое простое -- сделать временный DjVu и "пройтись" по нему, отлавливая плохо обработанные страницы. После этого запустить вывод еще раз и сделать окончательный DjVu.
===
Как видно, возни значительно больше, чем со сканами, а результат, увы, всегда хуже. Но если ничего другого, кроме как сфотографировать книгу на подоконнике не остается, то надо учесть все, что написано выше.

plantago, 21.10.2013 02:21

ЕСЛИ КНИГА ЦВЕТНАЯ
1) Обычно цветная -- только обложка. Заднюю обложку я по большей части игнорирую, а переднюю вывожу из Scan Tailor безо всякой дополнительной обработки и полей, только с повышенным разрешением. Так же можно поступать с цветными и серыми вклейками, где нет или мало текста.
2) Если есть и рисунки (цветные или серые), и текст, то их обработку надо разделить. Это называется сегментация. Тут спасают прямоугольные области изображения на этапе вывода. Надо выбрать смешанный режим, и там -- форму области. Прямоугольные области доступны в двух разновидностях программы Scan Tailor -- Scan Tailor Enchanced и Scan Tailor Plus. После окончания вывода надо еще раз пройтись по всем таким страницам, проверить и подправить (если надо) границы зон.
3) Если есть цветной фон или цветной текст, то это караул. Никакая программа обработки не умеет их как следует обрабатывать. Проще всего вообще не разбивать такую страницу на текст и рисунки -- выводить как обложку. Либо, на свой страх и риск, конвертировать в черно-белые.*
4) При конвертировании получившегося в DjVu есть три варианта: (а) довериться программе, пусть сама решит как ужимать (автоматическое сегментирование), (б) указать программе, где рисунки, а где текст (вставка картинок) и (в) заставить программу считать все страницы картинками (без сегментации).
===
* Впрочем, можно попробовать перевести такие страницы в малоцветные (постеризовать) и потом закодировать специальным DjVu-методом (cpaldjvu). Я так пробовал только на отдельных страницах, а хорошо бы научиться это делать массово (скажем, при помощи ImageMagick).

vtosha, 21.10.2013 04:23

Достаточно прилично работают при обработке сканированных книг Book Restorer и ScanKromsator. Правда, у них не пересекаются некоторые функциональности: Book Restorer отлично выправляет искривления, а ScanKromsator очень здорово чистит фон.

plantago, 21.10.2013 06:03

ЧЕМ ДЕЛАТЬ DJVU
1) DjVu Small: http://djvu-soft.narod.ru/soft/djvu_small_v0_4_4.rar
2) DjVu Toy (программа еще кучу всего умеет делать): http://www.comicer.com/stronghorse/softwar...DjVuToy_eng.zip (там же ксть отличная программа для создания PDF: http://www.comicer.com/stronghorse/softwar...Pic2Pdf_eng.zip )
3) Поскольку обе вышеуказанные программы -- это обертки над консольными утилитами, можно напрямую запускать их ядро -- программу documenttodjvu.exe (этот файл можно вытащить из DjVu Small)
4) Поскольку лицензионность вышеописанных программ сомнительна, можно воспользоваться программами свободной библиотеки DjVu Libre (http://djvu.sourceforge.net/). Под Linux я сделал работающий "комбайн", который многое умеет: https://github.com/ashipunov/img2djvu . Полного аналога под Windows, по-видимому, пока нет.
5) НЕ НУЖНО ДЕЛАТЬ факсимильные электронные книги при помощи FineReader любых версий, а также программ, которые ставят штампы на страницы.

plantago, 21.10.2013 07:30

(vtosha @ 20.10.2013 21:23)

Тем не менее, я очень рад, что уже два года обхожусь без них

EBotanic, 21.10.2013 12:01

ДОПОЛНЕНИЕ

К "нестандартным" фондовым материалам,
типа музейные книги поступления образцов,
особенно учитывая, что они прошиты и плохо
разгибаются, эти правила применимы в части
использования фотосъёмки (заверяю).

[пример фотографии разворота книги учета гербарных коллекций]

N.B. Третий год занимаюсь этим с областным и райоными краеведческими музеями.

EBotanic, 21.10.2013 12:11

Обновил предыдущий комментарий - дал ссылку на фото.

vtosha, 21.10.2013 12:57

Я для создания DjVu пользовалась программой DjVuOCR. Но увы, для распознавания текста и создания текстового слоя лучше FineReader'а пока ничего не обнаружено...

Впрочем, как раз примерно два года я этим и не занимаюсь, технологии давно уже могли уйти вперёд.

plantago, 21.10.2013 17:21

Это правда, FineReader отлично распознает текст. Но я все равно его не использую

Вместо него для распознавания текста и создания текстового слоя в DjVu у меня работает ocrodjvu с cuneiform-multilang.

plantago, 26.09.2014 02:38

Мне написали о том, что фотографировать книги трудно физически: надо КАК-то ДЕРЖАТЬ И КНИГУ, И КАМЕРУ. Вот что я могу написать по этому поводу:

Да, это одна из самых больших проблем. Что я делал:

1) Держал одной и фотографировал второй. Работает с маленькой камерой (скажем, Canon 100), в большинстве случаев не очень неудобно. Можно дополнительно предварительно разглаживать страницы. Минусов немало, в частности, надо следить, чтобы пальцы не въезжали в область текста (пусть даже пустую).

2) Клал толстую книгу (книги) на края разворота либо на верх его. Минус -- каждый раз надо приподнимать.

3) Просил кого-то держать развороты. Очень эффективно и ускоряет процесс в разы, минус очевиден. И за пальцами надо следить.

4) Подкладывал книгу или чехол камеры под ту часть разворота, где меньше страниц. Не решает всех проблем, но помогает, особенно в случае (1).

5) Многие старые книги (пока еще типографское качество было высокое, где-то до середины 1960-х) и не требуют дополнительных усилий, только (4).

В общем, надо пробовать. Это и вправду неплохой путь. Самый главный общий минус -- сильные оптические искажения, но Scan Tailor умеет исправлять где-то 3/4 от них.

plantago, 17.02.2015 10:35

6) Тонкие, тесно сшитые книги полезно переворачивать в последней трети процесса на 180 градусов. Так получается гораздо удобнее их прижимать. Ну а потом, перед обработкой, эти кадры надо будет программно перевернуть.

plantago, 09.05.2015 21:46

КАК НАЧАТЬ РАБОТАТЬ СО SCAN TAILOR:

1) Вот тут надо скачать программу Scan Tailor Plus: http://sourceforge.net/projects/scantailor....11-2012-03-06/
2) Вот очень короткая инструкция по пользованию: http://djvu-soft.narod.ru/st_quick.htm
3) Вот подлиннее: http://djvu-soft.narod.ru/st_ref.htm

В дополнение к инструкциям нужно понять, (а) как чистить страницы от мусора (на этапе вывода есть вкладка зон заливки, надо выделять и заливать мусор белым) и (б) как работать с прямоугольными фотографиями (выбрать смешанный вывод, а там выбрать прямоугольные зоны картинок).

plantago, 09.05.2015 21:55

КАК КОНВЕРТИРОВАТЬ В DJVU СКАНЫ С КАРТИНКАМИ

(Это только один из способов, рассчитанный на вывод программы Scan Tailor и разрешение 600 dpi)

1) Скачиваете DjVu Small http://djvu-soft.narod.ru/scan/djvu_small.htm и внимательно читаете инструкцию
2) Находите там в папке программы файл documenttodjvu.conf, заменяете его на модифицированный (в приложении)
3) Запускаете на папку с изображениями один из двух профилей: если не черно-белая только обложка, то "user B/W (600 dpi)", а если много фото, то "600 with images very aggressive"

Файл/ы:

documenttodjvu.zip
размер: 6.17
кол-во скачиваний: 313

plantago, 03.10.2015 22:26

ЕСЛИ СКАНЕР МОЖЕТ ТОЛЬКО ЧЕРНО-БЕЛОЕ

Это бывает у старых ксероксов-сканеров-принтеров. Они могут очень быстро работать (тысячи страниц в час), но не умеют сканировать цветное или в тонах серого.

1) Тогда обработка сканов при помощи увеличения и бинаризации практически бессмысленна. Нужно просто запустить пакетный конвертор изображений (тот же IrfanView)
2) В IrfanView надо выбрать скан из середины книги, и примерно прикинуть при помощи выделения, как обрезать края. В заголовке окна будет виден размер обрезки и координаты левой верхней точки выделения
3) На том же изображении перейти в пакетный режим, выбрать все сканы одной книги
4) Установить параметры обрезки (значения взять из заголовка окна, где все еще есть ваше выделение) и запустить пакетное обрезание.
5) После обрезки пролистать сканы и проверить, не обрезалось ли чего лишнего. Если да, то удалить обрезанное, изменить границы и повторить процесс (с книгами в мягкой обложке приходится иногда до пяти раз повторять).
6) Несколько первых страниц, страницу с печатью (обычно 17-ую) и задние страницы загрузить в GIMP и дополнительно почистить
7) Сделать DjVu

plantago, 04.10.2015 09:46

КАК НЕ ПРОПУСКАТЬ СТРАНИЦЫ

Это большая беда, потому что пропущенная страница обязательно будет кому-то нужна, а книга уже далеко. Поэтому:

1) Проверять надо обязательно не отходя от кассы, сразу после сканирования
2) Считать все страницы долго, я проверяю "девятками":
а) если сканируются развороты, то в правом нижнем углу обычно виден номер нечетной страницы
б) загружаем все в просмотрщих (IrfanView или другой)
в) быстро листаем, говоря вслух или про себя "один, три, пять, семь, девять" и одновременно смотрим на нижный правый угол.
г) если вдруг есть несовпадение, возвращаемся назад и листаем медленно, разбираясь, что к чему

plantago, 17.10.2015 21:06

ПОЛЯ, ШТАМПЫ и ПОСЛЕДНИЕ СТРАНИЦЫ

1) Мне представляется, что исторически большие поля служили для того, чтобы (а) было можно обрезать книжный блок несколько раз при последующем переплете (многие книги выпускались непереплетенными и даже неразрезанными) и чтобы (б) не пачкать пальцы и бумагу, перелистывая страницы. Обе причины ничего общего с электронными книгами не имеют. Поэтому в Scan Tailor я всегда ставлю маленькие поля (5 x 5), чтобы было удобнее читать с экрана. А чтобы избежать увеличения полей за счет выравнивания, выключаю из выравнивания самые длинные и самые широкие страницы (Scan Tailor позволяет сортировать по этим признакам на этапе выравнивания).

2) Библиотечные штампы, посвящения и прочие "послепечатные" дополнения я тоже удаляю. В частности, потому, что создание электронной книги я понимаю как вариант "reverse engineering", воссоздания существовавшего или условного оригинал-макета. Такой макет теоретически можно превратить обратно в книгу. В Scan Tailor на этапе вывода есть вкладка "Зоны заливки" ("Fill zones"), которая работает как ластик, позволяя залить любым цветом произвольную область страницы.

3) Последние страницы с рекламой других книг, страницами "для заметок" и задней обложкой я чаще всего не включаю в книгу. Но здесь могут быть разные точки зрения.

plantago, 18.10.2015 23:10

ПОВОРАЧИВАТЬ ЛИ СТРАНИЦЫ

Это в основном карты и таблицы, иногда рисунки или фотографии.

Scan Tailor не позволяет повернуть страницы на 90° перед выводом, а если повернуть вначале, то возникают проблемы с выравниванием или повернуть вначале вообще нельзя (потому что отсканировано разворотами, а нужная страница -- только часть разворота). С другой стороны, большинство просмотрщиков DjVu/PDF позволяют на ходу повернуть любую страницу. А если просматривать по две страницы сразу, то заранее повернутые страницы создают проблемы. А с еще одной стороны, разпознавалки текста лучше работают с заранее правильно повернутыми таблицами, да и кодировщик DjVu делает файлы меньших размеров, если страницы правильно ориентированы. В общем, решайте сами, как лучше

plantago, 05.11.2015 23:52

НУМЕРАЦИЯ СКАНОВ

Иногда это очень важно, потому что утилиты, собирающие из сканов DjVu или PDF, могут делать это неправильно, и тогда нарушается порядок страниц.

1) Не нужно использовать в названиях файлов русские буквы, буквы в верхнем регистре и пробелы. Только цифры, латинские буквы в нижнем регистре, подчеркивание, ну и еще дефис.
2) Файлы надо нумеровать с лидирующими нулями. То есть первый файл исходного скана может называться sc-001.jpg, второй sc-002.jpg, а последний, скажем, sc-239.jpg. Все обложки, форзацы, вклейки тоже должны быть в этом ряду. Тогда никаких проблем с "неправильно собранными" файлами не будет.

guest: mila , 26.07.2017 15:18

Скан Тейлор.

1.
Зона заливки.
Очистка.
"Красная точка" есть, но при перемещении не рисует контур.
Почему?

Причем, и в старых проектах (уже законченных) не рисует...

2.
Может ли влиять на верхнее поле (увеличить по сравнению с оптимальным) искажение страниц при сканировании ("косина", виден верхний край обложки)?

plantago, 27.07.2017 03:31

Если не рисует в старых проектах, можно попробовать (1) переустановить программу, (2) другие версии СТ, (3) на другом компьютере.

Это — лёгкая версия форума. Чтобы попасть на полную, щелкните здесь.