В тексте есть такой кусок:
Выбор режима сканирования сильно зависит от того, как выглядит исходный текст. Общее правило — надо использовать \"минимальный формат\", соответствующей странице. Это не только значительно уменьшает размер файлов, но и делает текст более читабельным. Виды страниц:
Перед тем, как начинать работу, обязательно проверьте качество сканирования на странице с \"типичным текстом\" и \"типичной картинкой\". Настройте параметры сканирования так, чтобы текст и картинки были отчётливо видны, но сама страница оставалась белой и обратная сторона не просвечивала. Не жалейте время на оптимизацию настроек — оно окупится при чистке страниц.
Я сам могу написать про алгоритм настройки для "черно/белого" сканирования: Перед тем, как начинать работу, обязательно проверьте качество сканирования на странице с \"типичным текстом\" и \"типичной картинкой\". Настройте параметры сканирования так, чтобы текст и картинки были отчётливо видны, но сама страница оставалась белой и обратная сторона не просвечивала. Не жалейте время на оптимизацию настроек — оно окупится при чистке страниц.
Нужно выбрать (методом проб и ошибок) единственный параметр "порог черного". Установите значение, которое даёт лучший результат (чёткий текст без грязи).
Каков алгоритм для серого и цветного я не помню (или не знаю
Кому интересно, полный текст (без описания собственно библиотеки), лежит здесь. Если есть замечания, пишите, пожалуйста в этой теме.


