1 Получение текста со сканера или фотоаппарата.

По трудозатратам работа машинистки равна работе шахтёра, а работа пользователя при создании оформленного документа равна работе шахтёра плюс специалиста по организации труда. К счастью в наше время если вы хотите использовать часть уже готового документа есть способы сделать это без большого труда. Распознавание позволяет вам это.

Часто под распознаванием понимается сканирование и распознавание вместе. Строго говоря это не верно. Сканирование – это создание снимка, и ничего более. Идиотские экранные кнопочки импортных приложений и сканеров «fax», «print» и «e-mail»





не должны вводить в заблуждение: снимок – вот обязательная возможность сканера. К сканеру прилагаются распознавательные программы (OCR) но технически распознавание не связано со сканером. То есть сканер всегда делает снимок но никогда не делает распознавание. Это разные вещи.

Это важный момент. Если у вас есть снимок но нет сканера вы можете распознавать. Как вы получите снимок – безразлично, можно сканировать в пункте фотообработки и интернет-кафе.

Вы можете использовать цифровой фотоаппарат вместо сканера хотя сразу надо оговориться что это зависит от качества снимка. Цифровые фотоаппараты быстро прогрессируют и качество снимка тоже. К тому же они моментально делают снимок, а про сканер этого сказать нельзя. Зато сканер делает гораздо более качественный снимок, что фатально при мелком тексте (сноски, примечания). Снимок фактически является графическим файлом. Его можно скопировать с фотоаппарата либо через читатель flash-карт, либо через порт USB.

Несколько слов об идиотских кнопочках. Многие сканеры обеспечены кнопками на своём корпусе которые позволяют одним нажатием выполнить одно дело. Ему соответствуют несколько ручных операций. Так, например, кнопка «copy» позволяют вам распечатать то что отсканировано. Скорее всего это значит что на принтер будет автоматически послано задание поэтому он должен быть готов к работе. Вы сможете прочесть о кнопках в документации и на сайтах. Я считаю что в большинстве случаев эти кнопки полезны. Когда вы выбираете сканер посмотрите насколько они вам нужны.

Если вы пользуетесь сканером то можете сканировать фотографии и ксерокопии. Это даже во многом лучше чем оригинал поскольку книги часто дают худший снимок. Некоторые сканеры требуют ставить оригинал вертикально. В таком случае ничего толще брошюры вложить в него нельзя. Это офисный сканер для обработки отдельных листков на загромождённом столе. Также протяжный сканер обрабатывает листы по одному. Если у вас автосканер то он сам перевернёт страницы; возможно, есть приставка к обычному сканеру для этого. В противном случае страницы придётся переворачивать самостоятельно. Обычно используется планшетный сканер который предполагает положение материала на его горизонтальное стекло.

Есть специальный сканер-распознаватель размером с авторучку CРen. Он распознаёт только текст и хранит его в себе.

Скорость съёмки зависит от модели сканера, в том числе от того, может ли сканер использовать быстрый метод передачи снимка; это зависит и от поддержки достаточно быстрой версии интерфейса USB.

Ниже вы найдёте ещё некоторые важные замечания о сканерах.

Я задержался с определением распознавания. Распознавание текста – это процесс нахождения символов в снимке. Распознавание в обиходном смысле – это процесс при котором в снимке находятся таблицы, иллюстрации и блоки текста, они обрабатываются в OCR-приложении, которое выдаёт на выходе практически копию исходного документа. Внешнее сходство определяется этой программой. За ним - большие различия: получается действительно текст; его можно редактировать. Объём получаемого файла в сотни раз меньше, чем совокупный объём снимков. Если бы не распознавание пришлось бы пересылать по почте CD диск со снимками вместо того чтобы отправить через интернет небольшой файл.




Неуверенно распознанные символы могут совпадать с оригиналом, и уверенно распознанные могут быть отклонением от него. Поэтому всегда возможны не только ошибки письма но и смысла.

Они особенно опасны в случае искажения аббревиатур, терминов и цифр так как вы не сможете их проверить. В результате вы будете искать информацию которой нет или она не про то и делать не то что надо. Так можно испортить данные, «железо» и потратить деньги на ненужные вещи. Чтобы облегчить ситуацию вы можете обратиться к словарям. И будьте внимательны. Вы легко получите у пиратов или в интернете распознанные документы с оформлением и там не будет написано что они распознаны.

Текстовые программы могут выявить многие ошибки. Например может быть выдано сообщение «предложение не согласовано». Но ясно что все смысловые искажения так обнаружить нельзя. Поэтому надо либо вычитать текст либо читатель должен корректировать смысл либо надо отказаться от распознавания и просто использовать снимки. Сейчас есть прекрасный формат DJVU который при малом объёме позволяет иметь точную копию страницы. Разворот книги обычного формата без иллюстраций даёт файл размером 17-30 кб.

Вообще говоря, съёмка и распознавание могут быть автоматическими или нет; съёмка и распознавание могут быть смешаны или отделены друг от друга; вы можете обрабатывать отдельные части материала или его весь; вы можете применять разную обработку к разным частям оригинала и снимкам, например, выделить некоторые снимки и очистить их или повернуть, или пропустить в очереди распознавания. Вы можете сохранить пакет распознавания, чтобы прервать работу, и возобновить её с того места, на котором она была оборвана; можно прервать и автообработку.

При хорошем оригинале и сильной программе вы можете просто и даже автоматически выполнить все работы. И получить приемлемый документ. В качестве примера можно описать это так: 1)у вас – брошюра которая в развёрнутом виде влезает на стекло сканера и плотно прилегает к нему 2)в тексте нет вертикальных таблиц, формул и прочих выкрутасов 3)вы однократно задаёте параметры съёмки 4)вы ставите таймер и просто прижимаете нужные страницы. Если вы запустите фоновое распознавание то получите результат через 10-20 секунд после съёмки последнего разворота. В хорошем случае на страницу приходится 3-5 неуверенно распознанных символов. Иногда бывает ни одного на разворот.

После сохранения распознанного текста рекомендуется его пролистать чтобы оценить качество.

Даже хорошая программа вроде FineReader не обязана делать правую границу текста ровной, а программа, в которой вы будете смотреть и редактировать текст вообще может быть неспособна на это. Объяснением этому является кроме мощности распознавателя и текстового редактора их поддержка кернинга. Кернинг – это позиционирование символа в зависимости от соседнего символа. Он очевидно имеется в типографии, но не обязательно в ваших программах. В результате стоящие иначе буквы создают строки разной длины.

Для выравнивания правого края строк можно избавиться от невидимых отбивок на конце строк, после этого программа «сольёт» текст в рамки полей страницы или своего окна уже иначе, с другим количеством строк.

О формате DJVU.

Когда нужен DJVU вопрос решаемый обстоятельствами. Ясно что чем грязнее оригинал и снимок, чем ниже его качество, чем больше нагромождено в нём тем нужнее простой способ обойти малоперспективный и трудный путь распознавания. И наоборот если вы имеете качественный и простой оригинал то DJVU не требуется. Это кроме того вопрос о размере данных которые вам возможно придётся передавать. DJVU-файл бесполезно архивировать, он не сократится.

Формат DJVU при малом объёме файла позволяет иметь точную копию страницы. Разворот книги обычного формата без иллюстраций даёт файл размером 17-30 кб. Я пишу об этом формате не потому что он будет единственным. Будут создаваться новые форматы. Но этот формат уже есть и позволяет обойти проблему ошибочного распознавания если качество снимка достаточно высоко. С оглядкой на вероятную судьбу создаваемых файлов вы должны решить надо вам выполнять обычное распознавание или сохранять в DJVU. Этот формат может хранить текстовый слой. Это важно так как позволяет поиск слова, удаление файла может удалить и текст если он там был. DJVU существует как цветной, полутоновой серый и битональный чёрно-белый — без полутонов. При прочих равных условиях их объём так и ранжируется — от большего к меньшему. Вы можете даже пойти на компромисс опубликовав и распознанный файл в каком-нибудь текстосодержащем формате — например HTML — и DJVU. Файл DJVU может быть и одностраничным и многостраничным. Поэтому в WWW вы можете видеть книги в этом формате из одного файла. Если книга будет просматриваться выборочно то она хранится как каталог с одностраничными файлами.

Для работы с форматом создано несколько программ. Я не буду их рассматривать тем более что они будут быстро прогрессировать. В том числе есть несколько консольных приложений которые вы можете использовать для обработки массы файлов одним махом.

Отдельный файл может быть либо просмотрен в обозревателе с установленным плагином либо в специальном приложении. Трудно сказать какой из этих способов лучше.

Чтобы стал возможен поиск по таким файлам слова надо выполнить индексирование файлов или искать в самих файлах, или (теоретически) в текстовых файлах которые однозначно сопоставлены файлам DJVU. Индексирование не выполняется в известных ОС автоматически. Поэтому нужно чтобы некая программа или скрипт сделали это.

Потребность в правке и авторежим.

Часто после распознавания приходится править документ. Это зависит от снимка, OCR и умения, если не использовать авторежим. То есть умение сказывается если нет авторежима.

Авторежимом я называю здесь случай, когда программа обрабатывает снимки сама; в таком случае надо следить за тем, чтобы снимки в ней распознавались после проверки правильного положения листа.

Авторежим не только не лучше ручной работы в плане результата, наоборот, в авторежиме имеет смысл давать лишь хороший материал, и проверять результат. Кнопка «Recognize» или «E-mail» существует только для хорошего материала, когда вы, не видя результат, уверены в его достаточно высоком качестве. Для этого надо знать процесс, иметь опыт. Практичный подход подсказывает ещё одно применение этой методики: пустить всё в авторежиме, а потом переделать, если потребуется.

Часто можно добиться сканирования с автоподбором режима съемки; однако такой способ может дать негодный результат.

Вы можете простую часть пустить в авторежиме после ручной обработки сложной части.

Сохранение и имена файлов.

Есть очень важный вопрос об автоматическом сканировании и сохранении. И то, и другое само по себе важно, но особенно важно соотношение их. С именами связано удобство загрузки множества файлов для распознавания и правильный порядок страниц в результирующем документе, об этом написано ниже. Дело в том, что есть программы, которые позволяют автосканирование и просто накапливают снимки, которые потом надо вручную называть при сохранении, то есть в простейшем случае набирать «1», «2», «3» и тд. Есть программы, которые сами сохраняют, назначая имена.

Есть программы, которые переименовывают кучу файлов сразу.

Съёмка по таймеру.

Есть программы, которые позволяют задать интервал в секундах при автосканировании, но это надо ещё подготовить. Вы успеете положить и прижать оригинал? И вот ещё вопрос: что если для части снимков нужен особый режим? Всё это надо обдумать, чтобы было легче.

Это пример того, как компьютер, в отличие от кофемолки, заставляет думать. Поскольку мы этот процесс комкаем или терпим последствия бездумного отношения считается что компьютер вреден. Вредно браться за дело когда не в состоянии думать.

Роль программ. Подготовка снимков к распознаванию и передаче.

Конкретика сканирования и распознавания определяется программами. Я не могу и как всегда не описываю конкретные действия, описанные в справке этих программ. Обстоятельства с которыми вы столкнётесь используя конкретный сканер и программы могут оказать существенное влияние на алгоритм работы и общую удовлетворённость результатом и работой. Но здесь важно не усугублять недостатки которые нельзя исправить плохим использованием, которое часто на практике происходит от невежества. Это общее замечание, верное не только для сканирования, но тут оно особенно ярко выражается.

Вы можете сканировать из разных программ, а не только распознающей или штатной, такая возможность сейчас обычно есть, например в программке SlowView. Однако есть более доступная программа для сканирования – Imaging. Лично я её считаю топорной, но она тем не менее существует и входит в ОС. Раз вы купили сканер, то и программы к нему вместе с ним.

Также вы можете использовать любые программы для правки снимков и результирующих текстов. Правка снимков имеет целью улучшить распознавание или снимки которые не потребуется распознавать. Я дам перечень действий каждое из которых не является обязательным в конкретном случае и может давать немного разный результат в разных программах. Может потребоваться ещё что-нибудь.

Возможно что вам потребуется поворачивать сделанные снимки. Наиболее популярная распознающая программа в России – FineReader – сама подбирает ориентацию или нет смотря по её настройкам. Это важно даже в том случае когда вы передаёте снимки которые не будут распознаваться потому что конкретная программа у получателя может не уметь поворачивать снимки определённого формата. Это относится прежде всего к формату DJVU.

Для распознавания самого по себе размер файла снимка важен лишь в плане скорости обработки файла. А в случае передачи снимка для уменьшения его размера вы можете

Для улучшения результата распознавания в плане количества ошибок вы можете





Вы можете для этого накладывать на снимок различные фильтры при сканировании или обрабатывать его в отдельной программе, где возможности часто ещё шире (а вот качество фильтрования может быть хуже). Недостаток наложения фильтров при сканировании в том что нельзя отменить действие фильтра. С другой стороны меньше возни. В том же диалоговом окне, где вы ставите режим съёмки вы можете установить или отменить накладываемые фильтры, например UnsharpMask. Полазьте по диалогу сканирования.





WindowsXP содержит встроенный модуль для работы со сканером, но он не даст доступа ко всем возможностям, и я не его имею в виду.

Для ускорения распознавания вы можете уменьшить размер файлов снимков и улучшить их вид. Эти цели могут войти в противоречие между собой. Чем оригинальнее, запутаннее, кривее свёрстан оригинал и чем кривее снимок тем медленнее идёт процесс.

Я могу посоветовать XnView, которая позволяет одинаковую обработку массы файлов. Например, с её помощью можно существенно улучшить распознаваемость тонкого шрифта, когда тонкие части букв практически отсутствуют или не воспринимаются. Рецепт для этого редкого случая не очевиден: примените фильтр минимум квадрата. Перед этим может потребоваться увеличить снимок.

Ещё вам может потребоваться склейка снимков о которой написано ниже. Это вопрос не распознавания а организации работы. С другой стороны вертикальные таблицы мотивируют резку снимков разворотов. Распознающая программа может не справиться с ними. Автоматическое распознавание может быть таким что вы заинтересованы склеивать или наоборот резать снимки потому что результирующий снимок будет обрабатываться иначе и давать другие результаты.

Конкуренция ставит предел примитивизму поставляемых изделий, и слишком сложная работа как и слишком плохой результат должны наводить на мысль о неправильной работе.

Режим съёмки и цель работы.

Некоторые сканеры работают в таком убогом наборе режимов съёмки что покупка сканера без знания его режимов ничем кроме результата не отличается от игры в русскую рулетку. Они могут прекрасно использоваться для фотографий, но с текстом ситуация может быть другой.

Важно посмотреть на «битность», то есть глубину цвета при использовании режима. Она важна для вас в трёх отношениях: 1) скорость съёмки 2) качество снимка 3) отношение с вашими программами. Некоторые программы не работают с 12-битными серыми снимками.

Разрешение снимка -- это числовая величина, определяющая деталировку и размер снимка при 100%-ном масштабе показа. Чем выше разрешение, тем больше снимок и его размер для одного формата. Разрешение измеряется в точках на дюйм (dpi). Можно переделать снимок в этом отношении.

Снимки могут быть цветными, серыми и битональными. Последние два типа называются в обиходе чёрно-белыми, первый из них не является буквально серым, а может содержать разные градации серого. Битональный снимок содержит только совершенно чёрный и совершенно белый цвет.

В большинстве случаев сканер может работать в цветном и сером режиме, часто и в чёрно-белом. Для документов с обычным размером шрифта разрешение сканера 300 dpi является практически беспроигрышным, даже сноски хорошо получаются. Если шрифт крупнее можно пробовать более быстрый режим 200. Для нераспознаваемого снимка иногда достаточно и 100.Всё это сказывается на скорости съемки. Самый быстрый режим – черно-белый. Это режим BW, bitonal, 1-bit, без полутонов.






Тип снимка не связан с оригиналом. Если вы будете в цветном режиме снимать нецветной оригинал, то, скорее всего потратите зря время на работу поскольку сканер при прочих равных условиях делает цветной снимок дольше чем серый, а битональный получается быстрее всех. Так же относится размер файлов. Битность снимка напоминает тип в этих отношениях.

Для правдоподобной передачи фотографий достаточно 24 бит, для создания компьютерного документа с цветными иллюстрациями надо не более 16 бит, а иногда и восьми (256-цветный режим). Есть программы для массового переделывания файлов, в том числе для уменьшения битности, то есть «падения цвета». Для качественного распознавания серого снимка достаточно чтобы он был 8-битным. Большее их количество бессмысленно, меньшее может не испортить результат распознавания но уменьшит объём файла.

Надо определиться с тем, какой вы хотите иметь результат, что связано с авторежимом поскольку он может делать не то что вам надо. Дело в том, что сканируете вы сканером или фотоаппаратом, вы хотите получить:

Малоошибочное распознавание получается когда снимок

Какие есть лекарства от этих трудностей?

Как вы, может быть, заметили, толщина книги, «близорукость» сканера и сложность оригинала косвенно связаны с результатом работы, так как иногда и не стоит рассчитывать на распознавание, и делать просто снимки. Особенно при недостатке времени. К тому же подталкивает и ситуация с обилием формул и греческих символов в тексте, которые могут представлять непреодолимую задачу для ОCR.

Ещё в вашей работе важна дальнейшая судьба результирующих текстов. Вы можете определить какой результат должна выдавать OCR-программа настраивая эту программу.

Многостраничные файлы. Индексированный TIFF.

Обратите внимание на то, является ли получаемый при сканировании файл многостраничным. Файлы форматов DJVU, DCX, LDF, TIFF, и, возможно, некоторых других, могут быть многостраничными.

В таком случае в один файл сохраняется более одного снимка, и сотрёте вы не одно изображение, а много. Такой файл, в зависимости от формата может иметь ограничение на количество снимков в одном файле. Поэтому когда этот предел будет превышен будет создан новый файл. Это значит, что несовпадение количества снимков и файлов может быть нормальным, а не признаком нарушенной работы сканера или программ. Чтобы узнать является ли файл многостраничным, можно 1) вывести его свойства (см справку ОС), 2)открыть его в программе, приспособленной к раздельному показу снимков в многостраничном файле, 3) вызвать сведения о файле в программе соответствующего назначения. Косвенным признаком многостраничности является объём файла, а признаком добавления в него снимков – изменение этого объёма.

Нельзя умолчать о такой малоизвестной но более актуальной с выходом MicrosoftOfficeXP вещи как индексированный TIFF.

Этот формат файла имеет в себе распознанный текст, который уничтожается при удалении файла. Это не составной документ. Будьте осторожны с удалением этих файлов. Преимущество таких файлов понятно – вы имеете в одном файле снимок и текст, недостаток тоже имеется – нет оформления текста. Индексированный TIFF может пройти индексацию текста чтобы можно было искать слова в массе снимков. Индексация – это создание базы данных входящих слов. Как вы уже поняли, это методика и формат для стационарного использования, а не пересылки. Можно выдрать текст из файла; видимо, есть и обратная возможность.

Положение снимков.

Положение файла после съёмки будет определяться в каждом случае по-разному: драйвер к сканеру и программа могут сказаться на этом. Это может быть важно так как файлы могут быть большими и сканирование целой книги может потребовать слишком много места. Настройки программ или проекта,пакета – или как там называется массив данных одного назначения в ваших программах -- позволяют определять положение файлов снимков.

Склеивание снимков.

Иногда оригинал влезает на сканер, но нужно объединить два таких снимка. В таком случае желательно максимально переложить это дело на программы. Часто надо чтобы снимки были одного размера, что связано в основном не с размером оригинала, а с разрешением сканирования.

OCR-программы. Роль имён файлов.

Какой бы OCR-программой вы не пользовались, она должна понимать кириллицу и обычно позволяет авторежим.

Распознавательная программа входит в пакет Microsoft Office XP и более поздние выпуски этого пакета.

FineReader, обычно используемый для распознавания, выпускается в разных вариантах: Professional, Sprint и может быть ещё каких-то. Второй вариант не содержит очистки снимков от мусора и многого другого полезного.

Запомните что несмотря на хорошую русификацию файлы сортируются по латинскому алфавиту, поэтому будьте внимательны при загрузке множества файлов в распознавательную программу чтобы сохранить порядок снимков существующий в оригинале. Программа не будет догадываться в каком порядке их ставить. Во-вторых, чтобы порядок не был обращён надо начать выделять имена файлов с последнего к первому. На положение имён файлов в списке влияет способ автоматического присвоения имени, выполняемый при автосъёмке. Чтобы поставить файлы в нужном порядке перед значащим числом должны быть нули. Например, если у вас 100 снимков, то для нормального порядка имена должны быть не 1, 2, 3, а 001, 002, 003. Если у вас 1000 снимков, то имена должны быть 0001, 0002 и тд. Переименование вручную обычно слишком трудно, используйте для этого программы, например WindowsCommaner, или команды самой ОС (см её справку).

Поскольку FineReaderSprint не позволяет сравнивать снимок и текст в своём интерфейсе, это приходится делать сравнивая книгу (газету, журнал и пр.) с компьютерным документом. Чтобы облегчить себе поиск сомнительного слова в оригинале не удаляйте номера страниц из распознанного текста.

Ясно что в России для распознавания используется в основном FineReader. Его настройки регулируют множество параметров влияющих на результирующий документ. Главные из них следующие.


ПАРАМЕТР

КОММЕНТАРИИ

Increse paper size

Растягивать страницу для повторения вида оригинала.

Keep line breaks

Сохранять концы строк. То есть не менять набор символов в строке.

Retain text color

Сохранять цвет текста.

Use solid line as page breack

Вставлять горизонтальную линию между страницами. Это позволит их считать.

Highlite uncertain characters

Выделять неуверенно распознанные символы.