Как быстро отсканировать книгу в формат PDF (используя ClearScan)

Как быстро отсканировать книгу в формат PDF (используя ClearScan)

Иван Иванович Кузнецов , Иван Кузнецов

Описание

Это практическое руководство поможет вам быстро и качественно отсканировать книгу в формат PDF, используя технологию ClearScan в Adobe Acrobat. Автор делится опытом деструктивного сканирования (листовой сканер) и рассказывает о ключевых этапах процесса: сканирование, чистка, перевод в формат PDF и распознавание текста (OCR). Он описывает, как правильно настроить сканер, какие разрешения и цветовые режимы использовать, а также как очищать отсканированные страницы от дефектов (неровностей, теней, пятен) с помощью специальных программ. Уделяется внимание выбору оптимального программного обеспечения для чистки изображений. Подходит как для начинающих, так и для опытных пользователей.

<p>И. И. Кузнецов</p><p>Как быстро отсканировать книгу в формат PDF (используя ClearScan)</p><p>Введение</p>

В этом кратком пособии я бы хотел поделиться своим мыслями о быстром сканировании книг в формат PDF и впечатлениями о технологии ClearScan, доступной в Adobe Acrobat начиная с версии 9.0. На мой взгляд, это замечательная технология, делающая (наконец-то!) формат PDF подходящим для отсканированного текста.

Фактически, при деструктивном сканировании (книга разрывается на листы и используется листовой сканер), процесс сканирования — чистки — перевода в PDF — OCR можно выполнить за тройку часов для книги среднего размера. (Надо сказать что у меня нет опыта в фотографировании книг, очевидно фотографирование тоже можно осуществить быстро, при надлежащем оборудовании, и таким образом избежать уничтожения бумажной книги.) Если же вы «стекольщик», то есть у вас достаточно терпения сканировать книгу на стекле сканера, сканирование, очевидно, займёт дольше.

<p>Как сканирует начинающий</p>

Если есть сканер, то хочется что-нибудь отсканировать! И слава Богу. Посмотрите на обилие электронных библиотек. Спасибо всем кто отсканировал и выложил это для других.

Сканеры сегодня продаются с пакетом программ, среди которых есть и программа по преобразованию в PDF. В теории (и в рекламных проспектах) это выглядит так: заложи в сканер листы, получи их на выходе в электронном виде, в формате PDF!

И это иногда правда. Есть большое количество разных бумаг (количеством 1, 2… 10 листов) с которыми я так и поступаю. А чего с ними чикаться? Видно — будет. А большее и не нужно. Но вот книга… да ещё для тех, кто любит книги… разве можно назвать получившуюся косую дрянь с полосами, пятнами, чёрными точками, с разорванным шрифтом книгой? Где же зарыта собака? Какую опцию надо выставить, какой рычажок покрутить, чтобы всё это стало похоже на оригинал?

В том-то и дело что нет такого одного рычажка. Есть четырёхступенчатый процесс, каждая ступень которого требует некоторых оптимальных решений от оператора. Пакет программ для сканера, работающий по типу «одним махом всех побивахом», скрывает этот четырёхступенчатый процесс, делая из него одну операцию: бумажный лист — электронный эквивалент. Но о том что на самом деле происходит что-то сложное, всё же можно догадаться. Например, сканер уже закончил сканировать, а компьютер ещё не готов продолжать; на нём открываются и закрываются какие-то программы; мигает лампочка доступа к жёсткому диску…

Чтобы отсканировать книгу качественно, надо самому пройтись по ступеням этого процесса: сканирование, чистка, перевод в нужный формат и распознавание текста (OCR).

<p>1. Сканирование</p>

Задача этой ступени перевести бумажные страницы книги в соответствующие им файлы в формате TIFF с разрешением 300dpi. Это разрешение достаточно для книжного текста обычного («читабельного») размера. Мелкий шрифт или желание передать мелкие детали иллюстраций может потребовать большего разрешения. Покопайтесь в настройках своего сканера. На выходе, вам нужно получить графические файлы, в формате TIFF. Один лист — один файл. И никаких многостраничных TIFF-ов (где в одном TIFF файле несколько страниц)! Никаких PDF-ов! Никаких OCR-ов (распознаваний текста)!

На этой ступени также нужно принять решение о сканировании книге в цвете (color) или в оттенках серого (grayscale). Обычно не рекомендуется сканировать книгу в строго чёрно-белом варианте (b&w), так как сканер должен будет тогда решать что делать чёрным, а что белым. Скажем, изгиб на странице может быть передан чёрным и создаст чёрные полосы и пятна, а ещё того хуже, эти пятна закроют чёрный же текст. Вычистить потом такое «чёрное на чёрном» невозможно. Если же пятно (полоса, другой дефект) серого (или другого, при цветном сканировании) цвета, а текст чёрного (отличного от дефекта) цвета, то дефект можно будет убрать на стадии чистки путём удаления из изображения цвета пятна. Бывает также, строго чёрно-белое сканирование утоньшает и разрывает линии и шрифт (то есть когда буква, скажем, «d» выглядит как «cl»). Поэтому, для качественного сканирования, представим что опции (b&w) не существует.

Для моего листового сканера, сканирование начинается с отрезания обложки. Обычный кухонный нож с коротким лезвием и удобной ручкой вполне подойдёт. Для мягкой обложки, нож просовывается между обложкой и первой страницей (при закрытой обложке) и обложка отрезается. Если у книги твёрдая обложка, то при открытой обложке из неё вырезается сама книга. Страницы потом либо отрываются по одной, либо отрезаются. Рваные края потом можно будет удалить с помощью программы на стадии чистки. Главное, чтобы рваные края не залезали на текст.

Пишу эти строки, а в голове звучит стихотворение Маршака:

У Скворцова ГришкиЖили-были книжки —Грязные, лохматые,Рваные, горбатые…

Похожие книги

Основы объектно-ориентированного программирования

Бертран Мейер

Этот фундаментальный учебник посвящен основам объектно-ориентированного программирования и программной инженерии. В нем излагаются ключевые понятия объектной технологии: классы, объекты, управление памятью, типизация, наследование и универсализация. Особое внимание уделяется проектированию по контракту и обработке исключений, как важным механизмам для обеспечения корректности и устойчивости программных систем. Книга основана на работах Б. Мейера и предлагает глубокое понимание объектно-ориентированного программирования.

Искусство обмана

Юрий Викторович Щербатых, Вильям Л Саймон

Эта книга – увлекательное и глубокое исследование феномена обмана. Авторы, объединив научный подход с доступностью изложения, анализируют психологические и социальные аспекты обмана, рассматривая его как неотъемлемую часть человеческой истории и эволюции. Книга рассматривает историю обмана, его формы и методы, а также механизмы восприятия и противостояния обману. В ней представлены примеры из различных культур и исторических периодов, позволяя читателю глубже понять природу этого сложного явления. Искусство обмана – это не просто описание, но и попытка понять и осмыслить причины и последствия обмана в жизни человека. Книга адресована всем, кто интересуется психологией, социологией, историей и хочет узнать больше об этом важном аспекте человеческого взаимодействия.

Искусство вторжения

Кевин Митник, Вильям Л Саймон

Эта книга, написанная Кевином Митником и Вильямом Саймоном, представляет собой увлекательный сборник историй о хакерских вторжениях. Авторы, являющиеся экспертами в области кибербезопасности, рассказывают о реальных историях взломов, подчеркивая не только технические аспекты, но и мотивы, риски и последствия таких действий. Книга предоставляет уникальный взгляд на мир хакеров, позволяя читателям понять сложную динамику киберпреступности и кибербезопасности. Она не только повествует о хакерских приключениях, но и служит ценным руководством для профессионалов в области информационных технологий, позволяя им повысить уровень безопасности своих систем. Книга также будет интересна широкому кругу читателей, интересующихся криминальными историями и приключениями.

Искусство быть невидимым

Кевин Митник

В книге "Искусство быть невидимым" Кевин Митник, эксперт в области компьютерной безопасности, исследует актуальную проблему защиты личной информации в эпоху больших данных. Книга основана на реальных примерах и опыте автора, раскрывая сложные вопросы интернет-безопасности и конфиденциальности. Митник рассматривает не только технические аспекты защиты, но и психологические факторы, влияющие на нашу безопасность в цифровом пространстве. Он объясняет, почему защита данных – это не просто право, а необходимость в современном мире, где каждый наш шаг отслеживается и анализируется. Книга предоставляет практические советы и рекомендации, помогающие читателям защитить свою личную информацию и контролировать свою цифровую жизнь.