Читайте также:
|
|
Ввод страницы. На этом этапе отсканированный или сфотографированный документ попадает в компьютер в виде изображения.
Анализ макета. OCR-приложение определяет, где на странице находятся текст, рисунки, таблицы и т.п., и разбивает ее на блоки. Программа последовательно дробит страницу на все более мелкие блоки: разбивает текст на абзацы, затем на предложения, отдельные слова и символы. В финале анализа макета документ представляет собой набор отдельных символов. Программа запоминает, в каком месте на странице каждый из них находится.
Распознавание символов – самый ответственный этап процесса OCR, ведь программа должна правильно идентифицировать все найденные знаки. Используется в тексте буква «В» (и какая – русская или латинская) или это цифра «8»? Если программа допустит ошибку, результат распознавания превратится в абракадабру. Для более точного распознавания текста программы комбинируют различные методы, которые условно делятся на две категории: методы сопоставления с образцом и методы сопоставления признаков (более подробно о них читайте далее).
Реконструкция документа. После завершения процесса распознавания программа начинает воссоздавать страницы, с помощью встроенного словаря объединяя отдельные символы в слова, слова в предложения, предложения в абзацы и т.д. Для ускорения процесса используются результаты анализа макета страницы (этап 2). Кроме того, применяя специальные методы, программы пытаются учитывать грамматические особенности текста, чтобы в итоге получились корректные с точки зрения распознаваемого языка предложения.
Сохранение документа. OCR-приложение сохраняет распознанный документ в определенном пользователем формате (только текст – TXT; макет страницы – файлы Microsoft Word или PDF).
1-й этап. Сканирование бумажного оригинала. Сканирование большинства документов производится как правило в черно-белом режиме. Если есть необходимость сохранения иллюстрации и рисунков, то производиться сканирование в цвете или в градациях серого.
2-й этап. Распознавание структуры документа. С помощью специального программного обеспечения производится распознавание структуры документа и текста.
3-й этап. Распознавание текста. С помощью программного обеспечения производится распознавание текста. На этом этапе особенно важно правильно установить параметры программы, чтобы минимизировать ошибки распознавания. Количество ошибок распознавания зависит от таких параметров, как полиграфическое качество документа, размер и контрастность текста, сложность взаимного размещения элементов документа.
4-й этап. Проверка правильности распознавания. С помощью встроенных средств производится визуальная проверка соответствия неуверенно распознанных символов.
5-й этап. Проверка орфографических ошибок. С помощью четвертого этапа как правило не удается избавиться от всех ошибок, поэтому необходимо также проводить проверку орфографии, например встроенными средствами Microsoft Word.
6-й этап. Форматирование и оформление результирующего документа. На этом этапе формируется результирующий документ (как правило в Microsoft Word) Устанавливается единообразные значения параметром шрифта и абзацев. Производится размещение и формирование таблиц. Производится ручной дополнительный ввод текста, формул, таблиц, автоматизированное распознавание которых не удалось произвести.
Дата добавления: 2015-02-16; просмотров: 204 | Поможем написать вашу работу | Нарушение авторских прав |