Из Буквы в Цифру. Как выбрать сканер


bukva v cifru - Из Буквы в Цифру. Как выбрать сканер

Решить задачу сохранения в компьютере большого объема текстовых данных с бумажных оригиналов поможет сканер, которым вы привыкли пользоваться для оцифровки различных изображений. Естественно, сканер выдаст только изображение текста; переводом полученной «картинки» в пригодный для редактирования вид ведает специальная программа оптического распознавания символов (ОРС или OCR - Optical Character Recognition). Правда, есть одно «но»: текст должен быть печатным, в крайнем случае, машинописным.

Теоретически можно распознать и текст, написанный от руки, но печатными буквами. Подробнее об ограничениях мы расскажем позже, а пока поговорим о возможностях сканера как устройства ввода текстовой информации.

Сканер позволяет вводить в компьютер текстовые данные с любых носителей. Проще всего работать с плоскими, гонкими носителями, то есть с отдельными листами бумаги. Сканер без проблем может перевести «в цифру» страницу из газеты, журнала или рекламного проспекта. А вот с толстыми многостраничными книгами и каталогами справится далеко не любое устройство.

«Какой сканер выбрать?»

Если вы работаете исключительно с тонкими бумажными носителями, то есть с отдельными страницами, вам подойдет так называемый CIS-сканер (от английских слов Contact Image Sensor - контактный датчик изображения). Такие сканеры (встречаются они довольно часто, пример - популярные CanoScan серии LIDE от фирмы Canon или BearPaw от Mustek) дешевле и компактнее устройств других типов за счет использования светодиодной подсветки и менее сложной оптики в сканирующем модуле.

Однако глубина резкости у CIS-сканера невелика. Другими словами, если сканируемый оригинал неплотно прилегает к стеклу (такая ситуация весьма вероятна при сканировании рельефных образцов, а также толстых каталогов или книг в твердом переплете), скан может получиться нечетким, что исключит возможность распознавания текста с такого изображения. Если вам обычно требуется оцифровывать текст именно с таких оригиналов и целостность переплета необходимо сохранять (то есть «расшить» сканируемую книгу на отдельные странички нельзя), выбирайте CCD- сканер (CCD, Charge Coup-Device - ПЗС или прибор с зарядовой связью: светочувствительный сенсор, по конструкции аналогичный матрицам цифровых фотокамер), например такой, как старшие модели Perfection от фирмы Epson. Недостатком их конструкции является сложность и относительная дороговизна.

Современные сканеры способны работать с оригиналами разных форматов, от визитной карточки до географической карты включительно, но для домашних пользователей оптимален сканер, работающий с документами форматом до А4 (он позволит оцифровать практически любой текст, имеющийся в домашнем архиве).

Сканер может заменить копир (при наличии подключенного к компьютеру принтера). Использовать сканер с этой целью можно по-разному. Большинство производителей сканеров включает в комплект поставки программные «эмуляторы копира». Если вы установите такую программу, вам достаточно будет пару раз щелкнуть мышью (или нажать соответствующую кнопку на корпусе сканера), чтобы принтер, подключенный к вашему компьютеру, выдал бумажные копии отсканированных документов. Конечно, проще использовать для копирования многофункциональные устройства (МФУ), которые по габаритам и оснащению похожи на копировальные аппараты.

Большинство сканеров относится к категории планшетных; в настоящее время планшетные сканеры все чаще встраивают в МФУ, такие как Lexmark X5470. В каждом из них объединены сканер, принтер, а зачастую еще и факс-аппарат. Главное преимущество МФУ перед сканером в данном случае заключается в том, что с его помощью можно делать копии в автономном режиме, без посредничества компьютера.

Все современные сканеры, предназначенные для домашнего и офисного использования, способны считывать информацию о цвете, то есть выдавать цветные сканы. Но при необходимости можно переключить устройство в режим сканирования «оттенков серого» (grayscale) или «черно-белых изображений» (black and white). Именно эти режимы следует выбирать, когда требуется отсканировать таблицу или текст.

 

«Черный или серый?»

Как правило, при оцифровке текста с целью распознавания используют «черно-белый» режим сканирования. Преимущество монохромных изображений - их малые размеры. Однако «черно-белый подход» хорошо работает только на четких сканах высокого качества, причем оригинал непременно должен быть контрастным. Увы, это скорее идеальная ситуация: куда чаще приходится иметь дело с нечетким текстом, пожелтевшей бумагой и носителями в толстом переплете.

К счастью, последние версии 0CF программ, такие как Abbyy Fim Reader 7.0, поддерживают распознавание 8-битных полутоновых изображений, содержащих до 256 оттенка серого цвета (включая черный и белый). Надежность распознавание текста с таких сканов, даже сравнительно нечетких, существенно выше, чем с плохих черно-белых картинок Итог: если у вас есть OCR-программа «понимающая» полутоновые сканы сканируйте текст для распознавания именно в этом режиме. Как упоминалось выше, любой сканер считывает информацию, в том числе и со страниц, заполненных текстом, в виде изображения, то есть массива разноцветных пикселов. Чтобы превратить такое изображение текста в сам текст, необходимо обработать скан OCR-системой. Часто простейшие программы этого класса поставляются в комплекте со сканером. Они преобразуют данные, полученные со скана страницы, в обычный текст, который можно редактировать в текстовом процессоре, например таком, как Microsoft Word.

 

С помощью слайд-адаптера планшетные сканеры - такие, как Canon CanoScan LIDE 500F, - могут сканировать прозрачные оригиналы. Ультракомпактные сканеры визитных карточек, например Cardscan Personal V8, переносят данные с визитки в адресную книгу на компьютере. Planon Docupen RC800 выглядит как большая шариковая ручка; чтобы отсканировать документ, достаточно провести устройством над поверхностью листа.

 

О разновидностях сканеров

Существует несколько типов сканеров, пригодных для ввода текста в компьютер. Большинство их относится к классу планшетных. Цена устройств этого типа начинается от $50. Планшетные сканеры также встроены в МФУ, которые (за счет их универсальности) стоят существенно дороже. Многие дорогие модели планшетных сканеров, предназначенные для интенсивного использования (то есть, прежде всего, в условиях офиса), оснащены устройством автоматической подачи документов (ADF - Auto Document Feeder). В него можно вложить целую стопку оригиналов, и сканер автоматически обработает их все, самостоятельно забирая один лист за другим. Естественно, ADF подходит только для сканирования отдельных страниц и не работает с переплетенными оригиналами и большинством неформатных документов. Наряду с планшетными, существует целый ряд специализированных сканеров, оптимизированных для решения конкретных задач.

 

Специализированные сканеры

Так называемые сканеры форм разработаны для оцифровки отдельных листов бумаги с заполненными формами (и просто одностраничных документов). Для этого у них имеется приспособление для автоматической подачи документов. Некоторые из этих сканеров способны оцифровывать лист одновременно с обеих сторон. Двустороннее сканирование экономит время и освобождает от необходимости переворачивать оригиналы (вручную или автоматически).

Слайд-сканеры могут сканировать только фотопленки (позитивные и негативные): более крупные носители, скажем, формата А4, в них просто не уместятся. Существуют два варианта таких устройств: небольшие модели (от $150) в состоянии обрабатывать только негативы и слайды обычного формата – 35 мм. Более дорогие устройства (от $200) в состоянии сканировать и пленку других форматов, например 9×12 см. Естественно, текст, расположенный на негативах и слайдах, можно распознать в OCR- программе. Покупать слайд-сканер имеет смысл, только если вы планируете сканировать слайды и фотопленки в больших количествах.

Сканеры визитных карточек по размеру не намного больше пачки сигарет. С их помощью можно считывать информацию с визиток и отправлять ее прямиком в адресную книгу на ПК. Сканировать документы большого формата на кард – сканерах невозможно.

Ручные сканеры похожи на шариковые ручки, только очень больших размеров. Они хорошо подходят для мобильных пользователей. Например, с их помощь можно сканировать тексты или иллюстрации из книг в библиотеке. При этом сканер, если у него нет собственной памяти для хранения изображений, должен бьть подключен к персональному компьютеру или ноутбуку. Ручной сканер необходимо самостоятельно передвигать над поверхностью документа, причем не слишком быстро и равномерно иначе изображение может исказиться, что случается весьма часто (рука человека-оператора, увы, не так совершенна и точна, как шаговый двигатель сканера).

 

Как работает сканер?

Принцип работы сканера, в двух словах, таков: подвижный сканирующий узел, включающий источник света и светочувствительный сенсор, располагается под стеклом. Проходя вдоль opигинала, он освещает его и регистрирует отраженный свет. Если в крышке сканера над стеклом имеется так называемый слайд - адаптер, то такой сканер может сканировать и прозрачные оригиналы, такие как фотопленка; (естественно, проявленная). Для этого лампа, установленная в крышке, просвечивает сканируемый носитель.

В сканирующем узле установлена так называемая линейка из светочувствительных элементов очень маленького размера. Чем плотнее скомпонованы датчики в сканирующей линейке, тем больше оптическое разрешение сканера по горизонтали. Датчики фиксируют различия в яркости света, отраженного сканируемым оригиналом.

Для сканирования цветных материалов может использоваться один из нескольких технологических приемов. В первом случае образец освещается через три светофильтра основных цветов красного, зеленого и синего. Старым моделям сканеров приходилось делать три прохода, по одному с каждым светофильтром. Новые устройства меняют фильтры «на лету», во время сканирования, поэтому им достаточно одного прохода. Некоторые дорогие сканеры оснащены тремя сканирующими линейками, каждая из которых чувствительна к своему основному цвету; такие модели обходятся вовсе без светофильтров. Компромиссный подход - установка в сканирующий узел трех попеременно включаемых источников света, собранных из красных, синих и зеленых светодиодов. такая конструкция достаточно дешева и в то же время удобна.

 

Как компьютер распознает текст.

Сканер выдает изображения, а программы распознавания текста преобразуют их в текстовые файлы.

Сначала отсканированную страницу с текстом компьютер воспринимает как изображение. Но как она превращается в текстовый документ, который можно обрабатывать в таких программах, как Word? Как говорилось выше, для этого служат программы распознавания текста (OCR-программы). Анализируя взаимное расположение разноцветных точек изображения, эти программы идентифицируют изображения цифр и букв, генерируя на выходе текстовые файлы. Чем проще используемый шрифт, которым набран текст оригинала, тем меньше ошибок будет сделано при распознавании. Вычурные гарнитуры усложняют распознавание текста, а рукописный текст большинство программ и вовсе не в состоянии «расшифровать». Современный софт рассчитывает и вероятность появления определенных букв - как многие системы предиктивного ввода текста. Программа принимает во внимание и контекст. Например, если программа распознала слово на скане как «пЬостранство», то при анализе текста она найдет «негармоничный» латинский символ «Ь» и заменит его на русскую букву «р». В результате «пЬостранство» снова превратится в «пространство». После распознавания программа сохраняет текстовый файл, который после этого можно обрабатывать в текстовом редакторе, таком как Блокнот или Word.

 

Какие программы требуются для сканирования?

К каждому сканеру прилагаются программы, необходимые для подключения устройства к компьютеру и «исполнения его непосредственных обязанностей». Эти программы обрабатывают данные, полученные от сканера, и сохраняют их на компьютере в требуемом формате.

 

Как запустить сканирование?

Очень просто: после запуска программы, в которой будут использоваться результаты сканирования, выберите источник изображения и щелкните по кнопке «Сканировать». У некоторых сканеров и МФУ на корпусе есть специальная кнопка, запускающая процесс сканирования. Нажатие этой кнопки «пробуждает» программу сканирования, работающую на компьютере в фоновом режиме, и запускает процесс обработки данных, полученных со сканера. Но такую функцию «прямого старта», как правило, необходимо сначала включить в программе сканирования либо в настройках драйвера сканера или МФУ.

 

Всегда ли нужно указывать все настройки?

Нет. Можно работать в упрощенном режиме. В этом случае программа, из которой вы запускаете модуль сканирования, автоматически выберет все настройки в соответствии с типом сканера и сканируемого оригинала. Этой особенно удобно при сканировании изображений, размер которых меньше А4. Задавать различные настройки вручную вам придется, только если сканер не поддерживает упрощенный режим (либо если этот режим не обеспечивает удовлетворительных результатов).

 

Типичные параметры сканирования

Предварительный просмотр.

Часто в интерфейсе сканера имеются функция и кнопка «Предварительный просмотр», или, по английски, «Prescan». Если вы активируете эту функцию, документ будет быстро отсканирован с низким разрешением. Это позволит вам оперативно проверить правильность расположения документа-оригинала и поправить его, если он лежит криво или вверх ногами. Многие сканеры поддерживают TWAIN-интерфейс, в котором можно выбрать формат оригинала, определить область сканирования и настроить мaccy других параметров.

Разрешение.

Это важнейшая настройка в любой программе сканирования. Разрешение, как правило, задается в точках на дюйм (dpi). Если вы собираетесь распечатывать отсканированное изображение в формате оригинала, выберите разрешение 300 dpi. Это значение используется также для сканирования большинства текстов, чертежей и штриховых рисунков. Если на экране компьютера или при пробной распечатке качество отсканированного изображения кажется слишком низким, увеличьте разрешение. Более высокое разрешение следует устанавливать и в тех случаях, если вы собираетесь увеличивать отсканированный фрагмент изображения. Но учтите: чем больше разрешение, тем больше будет файл. Удвоение разрешения приводит к четырехкратному увеличению размера файла.

Глубина цвета.

Еще одна важная настройка, определяющая количество цветов на скане. Для текстов обычно рекомендуется использовать вариант «черно-белый», но для слабоконтрастных оригиналов выбирайте режим «оттенки серого». Для работы с фотографиями на большинстве сканеров (и программ обработки графики) лучше всего подходит режим с глубиной цвета в 24 бита. В большинстве сканеров поддерживается режим с 48 битной глубиной цвета, который необходим, прежде всего, профессионалам, например для сканирования слайдов с очень широким динамическим диапазоном (перепадами яркости).

Прочие настройки.

Многие программы сканирования предлагают дополнительные функции, такие как усиление резкости (Sharpen) или удаление царапин (Remove dust/scratches). Но без явной необходимости использовать эти функции не стоит.

 

Настройки оптимальные для сканирования

Большинство программ для сканирования и драйверов сканеров предлагает стандартные настройки для сканирования различных оригиналов. Если вам приходится задавать настройки вручную, рекомендуем выбирать значения параметров, приведенные в таблице ниже. При этом разрешение в dpi зависит от размера оригинала. При работе со слайдами и негативами выбор большей глубины цвета 48 бит позволит улучшить цветопередачу.

Оригинал
Разрешение
Глубина цвета
Прочие настройки
Текст
от 150 до 300 dpi
Черно-белый (1 бит)
Выберите режим «Текст» (если имеется)
Текст с иллюстрациями
от 300 до 400 dpi
Цвет (24 бита) или оттенки серого (8 бит)
Выберите режим «Смешанный» (если имеется)
Фотографии
от 300 до 400 dpi
Цвет (24 бита)
Выберите режим «Фото» (если имеется)
Изображения полиграфического качества
от 300 до 600 dpi
Цвет (24 бита) или оттенки серого (8 бит)
Включите функцию удаления муара (descreen)
Слайды и негативы
не менее 1200 dpi
Цвет (24 или 48 бит)
Включите слайд-модуль

 

Цифровая камера как заменитель сканера

С помощью цифровой фотокамеры вы также можете вводить текст в компьютер. Чтобы воспользоваться этим «крайним вариантом», наведите камеру на нужный документ. Предварительно аппарат необходимо установить на штатив, так как без него избежать «шевеления» не удастся даже с помощью оптического стабилизатора. Во многих камерах есть возможность отображения в видоискателе или на дисплее вспомогательных линий (сетки), по которой можно выровнять изображение. Некоторые компактные цифровые камеры даже имеют специально для пересъемки сюжетный режим «Текст», оптимизирующий контрастность, а в некоторых случаях и автоматически избавляющий изображение от геометрических искажений.
При ручной настройке фотокамеры обязательно выберите максимальное разрешение и, если это возможно, полностью отключите сжатие изображения (либо установите наилучшее качество JPEG). Если вспышка в вашей камере регулируется, установите ее на минимальную длительность, иначе документ будет освещен слишком сильно. Если настройка недоступна, лучше работайте без вспышки, подсветив документ отраженным светом софита или настольной лампы. Получив изображение, вы сможете переписать его на компьютер и работать с ним, как с обычным сканом.

 

Чем лучше дорогие сканеры?

Как правило, более дорогие устройства сканируют быстрее. Кроме того, они нередко имеют дополнительное оснащение, например лоток для автоматической подачи документов. Некоторые сканеры также оборудованы специальными опциями, которые обнаруживают пыль и царапины и удаляют их с изображения. В ходе процедуры ICE (аббревиатура от английских слов Image Correction and Enhancement, что в переводе означает «коррекция и оптимизация изображения») происходит сканирование в ИК-лучах. Так удается выделить царапины и пыль на оригинале, а затем при сканировании в лучах видимой части спектра автоматически удалить эти дефекты, опираясь на результаты ИК- сканирования. Эта функция обеспечивает наилучшие результаты, и ее, в отличие от искусственного повышения резкости, стоит включить. Доступны также удаление в автоматическом режиме муара со скана, например, вырезки из газеты или журнала (когда точки растра на оригинале создают помехи) и конвертация полученного файла в формат PDF.

 

Что есть что?

dpi
Сокращение от dots per inch (точек на дюйм) – единица измерения разрешения; способность сканера и принтера воспроизвести указанное число точек, умещающихся на отрезке длиной 2,54 см. Чем выше значение, тем выше детализация.

Глубина цвета 48 бит
В битах измеряется разрядность или глубина цвета, считываемого сканером. От нее зависит число оттенков, которые может «распознать» сканер. При 24-битном сканировании сканер воспринимает 256 градаций каждого из основных цветов (красного, зеленого и синего, по 8 бит на цвет), а при 48-битном на каждый основной цвет отводится 16 бит, что соответствует 65536 градациям.

Формат PDF
Формат хранения текстов, графики и страниц со сложным контентом. Документы в этом формате отображаются на любом ПК, на котором может быть установлена программа Adobe Reader (свежая версия этой «читалки» для Windows – на нашем CD). Содержимое PDF-файла при просмотре на экране и при печати выглядит идентично. Перевести документ в PDF можно с той же легкостью, как и направить на печать (требуется предварительно установить соответствующую программу).

TWAIN-интерфейс
Стандарт TWAIN разработан для унификации взаимодействия со сканерами графики редакторов или ORC систем, что позволяет любому приложению получать изображения с любых TWAIN-совместимых сканеров.

97 просмотров всего, 1 просмотров сегодня