RussianArms.SU Бесплатный военно-технический и исторический архив

Пожалуйста, войдите или зарегистрируйтесь.

Расширенный поиск  

Новости:

Прежде, чем сказать "ДАЙТЕ" посетите раздел 8.5. Что такое "по запросу"


С корреспондентами без имени, возраста и места жительства в переписку не вступаем.

Найдено помещение для библиотеки форума. В Санкт-Петербурге на Васильевском.
Ищем энтузиастов способных принять участие в ремонте и обустройстве помещения.
Примем помощь в виде материалов и прочего.

Автор Тема: Сканирование и обработка книг. Общие вопросы  (Прочитано 37978 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Arrested

  • Модератор
  • Старожил
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 418
    • RussianArms.SU
« Последнее редактирование: 25 Август 2017, 11:04:22 от Eugen »
Записан

Arrested

  • Модератор
  • Старожил
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 418
    • RussianArms.SU
Re: Сканирование и обработка книг. Общие вопросы
« Ответ #19 : 25 Сентябрь 2011, 07:35:51 »

древнюю-предревнюю утилитку
Не DjVu Reader часом?
« Последнее редактирование: 25 Август 2017, 11:04:06 от Eugen »
Записан

БТТ

  • Модератор
  • Старожил
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 464
  • А может мы марсиане?
    • RussianArms.SU

ScanTailor

http://scantailor.sourceforge.net/?q=ru/about

Очень простая программа для обработки отсканированного материала. Быстрая в работе, не требует настройки. Принцип работы со ScanTailor - установил и вперед  :).
Все мои последние работы выполнены в ScanTailor версии 0.9.7.2 (остальные пока не пробовал, т.к. эта с головой устраивает), так что качество "выходного" материала Вы можете увидеть своими глазами.
______________________________________________________________________________________________________________
Вопрос самому себе - Ну и как теперь расценить этот пост? ;D
Реклама? Вроде бы и запрещено, но и вроде бы по теме :)
В случае чего меня подправят.
______________________________________________________________________________________________________________
Главное не бойтесь пробовать!!!
Скан тэйлор, скан кромсатор......   Кому что нравится. Главное результат!!!!


Нужно будет сбить бабос с разработчиков за рекламу :)
Эх, мечты, мечты ....
« Последнее редактирование: 06 Июнь 2011, 22:12:10 от БТТ »
Записан
С уважением Олег.

usikoff

  • Администратор
  • Ветеран
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 643
    • RussianArms.SU

Товарищи Админы, Ваша работа. Перекиньте в соответствующий раздел.

Перекидывать темы - легко.
Перемещать ответы - не в "раз"!  Не предусмотрена эта операция напрямую.
Попозже устрою.
Устроил.
Записан

ScrewDriver

  • Модератор
  • Постоялец
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 208
    • RussianArms.SU

Добавлю о DjVu Solo: под Windows 7 работает очень плохо, постоянно вылетает. Под XP SP3 ситуация лучше, скорость обработки даже выше, чем в Document Express Editor, но все то, о чем написал ScrewDriver, остается.
И еще - документ, обработанный в Express Editor-е, затем переделать или изменить в DjVu Solo невозможно: в Editor-е, по-видимому, другой алгоритм сжатия и Solo будет зависать с ошибкой.

Совершенно верно, "Соло" очень древняя, там версия djvu-компрессора 22 и с версиями выше оно не работает. Более современные программы имеют компрессор версии 25, он не имеет обратной совместимости. Но это бы полбеды, если бы оно буквы не путало.
Записан

Arrested

  • Модератор
  • Старожил
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 418
    • RussianArms.SU

Добавлю о DjVu Solo: под Windows 7 работает очень плохо, постоянно вылетает. Под XP SP3 ситуация лучше, скорость обработки даже выше, чем в Document Express Editor, но все то, о чем написал ScrewDriver, остается.
И еще - документ, обработанный в Express Editor-е, затем переделать или изменить в DjVu Solo невозможно: в Editor-е, по-видимому, другой алгоритм сжатия и Solo будет зависать с ошибкой.
« Последнее редактирование: 27 Май 2011, 14:38:10 от Arrested »
Записан

ScrewDriver

  • Модератор
  • Постоялец
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 208
    • RussianArms.SU

6. Запускаешь DjVu® Solo 3.1 (Non-Commercial version)
                                   http://www.f1cd.ru/soft/windows/text/djvu/djvu_solo_31_28/

Ради бога, мы долго можем спорить о подробностях и глубине обработки, НО ТОЛЬКО НЕ ЭТа софтина! Там кривой старый алгоритм, при сжатии постоянно путаются "н" и "и" в русском тексте, особенно в шрифте типа "courier" - она просто была заточена под английский язык.

Конвертировать нужно хотя бы этим:

Цитировать
DjVu Document Express Editor Pro 6.0.1 – Одна из наиболее распространенных и корректно работающих программ для создания и просмотра DjVu-документов от правопреемника самого стандарта DjVu компании LizardTech – Document Express Editor. В Document Express Editor, можно открывать и конвертировать файлы следующих форматов: DjVu (*.djvu, *.djv), BMP (*.bmp), GIF (*.gif), JPEG (*.jpeg, *.jpg), PNM (*.pnm, *.ppm, *.pgm, *.pbm), TIFF (*.tiff, *.tif), PICT (*.pict). При сохранении файла программа предложит выбрать настройки: распознавать ли текст; профиль; разрешение (от 100 до 600 dpi); качество текста (возможны 5 уровней от «агрессивного», т.е. со значительной потерей качества до «без потери»), сохранять изображения каждое в отдельном или в виде единого файла. Имеется семь профилей настройки где пользователь сам выбирает тип документа, а программа автоматически подстраивается под этот тип изображения: «Нормальный»; «Электронный»; «Фото»; «Битональный»; «Рукопись» и «Карта». Этими настройками, как правило, можно добиться вполне приемлемого результата. После того, как настройки заданы, необходимо выбрать место на локальном диске для сохранения файла в формате DjVu. Программа Document Express Editor 6.0.1 умеет распознавать около 100 языков, в том числе и русский.

Кратко:
«Нормальный» – для большинства отсканированных печатных документов.
«Электронный» – для растровых изображений электронного происхождения, таких, как скриншоты и т.п.
«Фото» – для фотографий. При этом функция OCR не работает, поэтому функция поиска и копирования текста в созданном документе не будет работать.
«Битональный» – для черно-белых изображений.
«Рукопись» – для старых или рукописных изданий без рисунков или фотографий.
«Рисунок» – похож на «Рукопись», но с поддержкой рисунков и фотографий.
«Карта» – похож на «Рисунок», но с лучшей поддержкой перевернутого текста.

Взять можно например тут:
http://reeed.ru/prog_djvu_ee.php

« Последнее редактирование: 27 Май 2011, 13:34:20 от SuvorovAV1956 »
Записан

SuvorovAV1956

  • Модератор
  • Ветеран
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 1788
    • RussianArms.SU Бесплатный военно-технический и исторический архив

Товарищи Админы, Ваша работа. Перекиньте в соответствующий раздел.

Перекидывать темы - легко.
Перемещать ответы - не в "раз"!  Не предусмотрена эта операция напрямую.
Попозже устрою.
Записан
В чужих руках хрен всегда толще.

БТТ

  • Модератор
  • Старожил
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 464
  • А может мы марсиане?
    • RussianArms.SU

Уважаемые администраторы, модераторы и пользователи.
Предлагаю обсуждение "щекотливого" вопроса по сканированию книг перенести в соответсвующий раздел.

Да, было бы неплохо откусить и перекинуть дискуссию

Этой теме в этом разделе не место. Данный раздел предназначет только для предоставления ссылок на литературу.
Существует специальный раздел "Сканирование и обработка книг или "у каждого свой вкус"".
В дисскусиях находится истина. Все мы заняты одним делом и делом нужным. Но давайте сохранять "уставной порядок", а то будет не форум а каша.

Товарищи Админы, Ваша работа. Перекиньте в соответствующий раздел.
Записан
С уважением Олег.

ScrewDriver

  • Модератор
  • Постоялец
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 208
    • RussianArms.SU


Я вижу свою лично идею фикс, высшую цель, каприз, снобизм, хобби, дурость, героизм - ...
... Это не мой выбор.

Ваш выбор. Мы его уважаем. И маемся с 2-мя Терабайтами...

Умну тоже два терабайта полная библиотека. Приходится копию держать - не дай бог полетит...

« Последнее редактирование: 05 Июнь 2011, 13:21:35 от БТТ »
Записан

SuvorovAV1956

  • Модератор
  • Ветеран
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 1788
    • RussianArms.SU Бесплатный военно-технический и исторический архив


Я вижу свою лично идею фикс, высшую цель, каприз, снобизм, хобби, дурость, героизм - ...
... Это не мой выбор.

Ваш выбор. Мы его уважаем. И маемся с 2-мя Терабайтами...
« Последнее редактирование: 26 Май 2011, 14:56:58 от SuvorovAV1956 »
Записан
В чужих руках хрен всегда толще.

ScrewDriver

  • Модератор
  • Постоялец
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 208
    • RussianArms.SU

Перевод в черно-белое или коррекция цвета убивают "дух времени"
Наши материалы вряд ли необходимы в печатном виде "для практического применения"
Так зачем убирать цвет, отпечатки, надписи и прочее?

Я вижу свою лично идею фикс, высшую цель, каприз, снобизм, хобби, дурость, героизм - можно назвать это как угодно - в другом: я пытаюсь сохранить книги для, как это ни громко будет сказано, потомков в том виде, в котором они были изданы. А не в том, в котором их нашли на чердаке, в хранилище библиотеки, или (пардон, но бывает и такое) на помойке. Насколько это возможно сделать.

Как я уже указывал, сырец скана книги без потери качества весит гигабайт. Дальше - всё только ухудшение качества, в той или иной степени. Единственный вариант сохранить без потерь качество и сократить размер до приемлемого - ч/б DJVU, что подразумевает тщательную и качественную обработку.

Сейчас мой архив-коллекция содержит порядка 600 книг по стрелковому оружию и военному снаряжению и технике, и весит он порядка 1,2 гигабайта. Я могу легко выложить его целиком на обменник, скинуть на флешку, люди могут его легко и без проблем скачать в виде торрента.
Если бы я хранил книги даже не в виде сканов-сырцов, а просто в виде JPG или PDF с приемлимым качеством, подчеркиваю - не с хорошим, а с приемлимым - то это весило бы гигабайт тридцать-пятьдесят.

Цитировать
Скорости растут, HDD дешевеют - грех экономить на красоте.
Здесь есть некоторое лукавство. То что HDD дешевеют, не делает их надежнее. Свою подборку я могу хранить в неограниченном количестве копий, и если я буду поддерживать соотношение объем/качество, то так будет и при 1000, и при 2000 файлов в библиотеке. Каждый из которых, повторюсь, является практически полностью достоверной копией оригинала книги. В случае, когда каждая книга весит 30-60 МБ, гибкость хранилища резко снижается, возможность оперативного обмена резко снижается... Ради того, чтобы полюбоваться фактурой 50-летней бумаги и степенью выцветания того же возраста типографской краски? Это не мой выбор.


Записан

SuvorovAV1956

  • Модератор
  • Ветеран
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 1788
    • RussianArms.SU Бесплатный военно-технический и исторический архив

В тексте (символах) ещё заложена определенная избыточность.
В чертежах и рисунках её быть не может.
А за некачественно сохраненные принципиальные электрические схемы, так вообще, следует помещать в Петропавловскую крепость.
В противном случае - поощрять - квартирой(ами) в пределах Садового Кольца.

Эх! Вот если бы Дума должна была состоять из одних технарей...
« Последнее редактирование: 08 Июнь 2011, 07:12:50 от SuvorovAV1956 »
Записан
В чужих руках хрен всегда толще.

RA3DCS

  • Постоялец
  • ***
  • Оффлайн Оффлайн
  • Сообщений: 55
    • RussianArms.SU

И не стоит бороться за минимальный объём - качество имеет приоритетное значение

Я тоже так считаю!!!!
Если мне эта книга нужна я найду способ скачать ее в любом объеме, какой бы он не был.
А кому не нужна, то и качать не нужно.
Просто обидно бывает, скачиваешь книгу и объем небольшой, но качество!
« Последнее редактирование: 26 Май 2011, 13:53:03 от RA3DCS »
Записан

RA3DCS

  • Постоялец
  • ***
  • Оффлайн Оффлайн
  • Сообщений: 55
    • RussianArms.SU

В pdf (13,1 Mb): http://narod.ru/disk/14071750001/Perechen_zapchastey.pdf.html

Arrested, Вы не могли бы конвертировать эти книги в формат DJVU, в формате PDF качество значительно хуже.

Самолет типа 69. Иллюстрированные перечни запасных частей. Комплектации 1:1; 1:2; 1:4; 1:10; 1:20; 1:40. 1977(jpg)
Самолет типа 69. Иллюстрированный каталог узлов и деталей. Книга 2. Группы 8-17. 1974(jpg)

Я уже пробовал, получилось довольно коряво (много цветового мусора, отдельные мелкие детали вообще неразличимы), будет свободного времени больше, сделаю обязательно.
« Последнее редактирование: 26 Май 2011, 15:27:45 от Arrested »
Записан

ScrewDriver

  • Модератор
  • Постоялец
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 208
    • RussianArms.SU

А нафиг вообще писать кто что делал? Все же под погонялом, кто что может предъявить?

Так ить эта, я и не пишу. Я и не помню. У меня сейчас полная коллекция под 600 документов, и бог его знает, какие я сам сканил, а какие обрабатывал. Знаю, что из них сам отсканил всего около двухсот книг, какие-то помню, какие-то нет...
Записан

W-600

  • Постоялец
  • ***
  • Оффлайн Оффлайн
  • Сообщений: 151
    • RussianArms.SU

А зачем вообще писать кто что делал? Все же под никами, кто что может предъявить?
« Последнее редактирование: 24 Май 2011, 22:08:06 от SuvorovAV1956 »
Записан

БТТ

  • Модератор
  • Старожил
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 464
  • А может мы марсиане?
    • RussianArms.SU

Я кодировал PDFCreator. Пока ХР стояла было нормально, но вот на 7-ке чегось комп тормозит.
Вообще вариантов куча.
Совет: прислушайтесь к мнению arrested. Плохого не посоветует. На себе проверил  :)
Записан
С уважением Олег.

Arrested

  • Модератор
  • Старожил
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 418
    • RussianArms.SU

По функционалу альтернативы девятому или десятому Акробату пока что нет, при наличии изрядной доли терпения в нем файл можно ужать до вполне сопоставимых с djvu размеров и качества. Но если время дорого, то лучше сразу кодировать в djvu.
Небольшой пример: кодировал jpeg-и в pdf (Акробат Х) и djvu (Document Express Editor 6.0.1), чтобы максимально ужать pdf, пришлось "попробовать" 10 раз, причем предпоследний раз вышел абсолютно нечитаемым, пришлось увеличивать разрешение, в djvu кодировал не глядя на настройки.
Многое еще зависит от исходного материала, например если книга старая, а бумага сильно желтая, то в djvu в режиме "черно-белый" качество будет кошмарное, в других режимах будет большой файл. Вот тут рациональнее сохранять в  pdf, поигравшись с настройками постобработки. Ничего сложного нет, пробуйте, со временем найдете "золотую середину" между объемом файла и качеством изображения и все будет получаться.
« Последнее редактирование: 26 Май 2011, 10:51:36 от Arrested »
Записан

БТТ

  • Модератор
  • Старожил
  • *****
  • Оффлайн Оффлайн
  • Сообщений: 464
  • А может мы марсиане?
    • RussianArms.SU

Сразу оговорюсь, все ниже приведенное не панацея, а токмо дабы можно было начать. Постиг данную науку с помощью коллег по russianarms.ru, за что им низкий поклон. Всех уже и не вспомню, так что не обессудьте.
Как собственно это делаю я.
Сканирую в TIFF с разрешением 300 dpi в формате "оттенки серого" для черно-белого изображения и в формате "цветное" для цветного. Сканер HP Deskjet F4213 All-in-One (даже на таком "сарае" можно добиться хорошего качества, так что не стесняйтесь начинать).
После сканирования весь материал прогоняю через программу Scan Tailor. Достаточно простая программа, не требующая особых навыков в работе с компьютером.
Выходные данные при обработке устанавливаю 600 dpi.
Если в отсканированном материале встречаются страницы с черно-белыми фотографиями - прогоняю их в режиме "смешанный", а если с цветными - "цветной/серый". Все остальное в режиме "черно-белый".
Обработанный материал кодирую либо в djvu либо в pdf (качество лучше, но и объем больше).
Вот собственно и весь "секрет".
Уважаемые коллеги, если я ошибся или что-то пропустил - исправте/дополните пожалуйста.
« Последнее редактирование: 27 Май 2011, 10:15:01 от SuvorovAV1956 »
Записан
С уважением Олег.