Студопедия
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Основные этапы процесса распознавания документов.

Читайте также:
  1. I. Основные богословские положения
  2. I. ПОНЯТИЕ ДОКУМЕНТА. ВИДЫ ДОКУМЕНТОВ.
  3. II Основные источники загрязнений гидросферы.
  4. II. Основные положения учения Ф. де Соссюра о языке.
  5. II. Основные теории по анализу международных отношений.
  6. II.1.1 Основные источники информации для оценки эффективности строительной организации
  7. III. Исторические этапы формирования современной науки
  8. III. Назовите основные последствия прямохождения человека (т.е. изменения в строении, физиологии, поведении) в опорно-двигательной системе.
  9. III. Основные положения лингвистической концепции В. фон Гумбольдта.
  10. III. Основные положения синтетической теории эволюции

Ввод страницы. На этом этапе отсканированный или сфотографированный документ попадает в компьютер в виде изображения.
Анализ макета. OCR-приложение определяет, где на странице находятся текст, рисунки, таблицы и т.п., и разбивает ее на блоки. Программа последовательно дробит страницу на все более мелкие блоки: разбивает текст на абзацы, затем на предложения, отдельные слова и символы. В финале анализа макета документ представляет собой набор отдельных символов. Программа запоминает, в каком месте на странице каждый из них находится.
Распознавание символов – самый ответственный этап процесса OCR, ведь программа должна правильно идентифицировать все найденные знаки. Используется в тексте буква «В» (и какая – русская или латинская) или это цифра «8»? Если программа допустит ошибку, результат распознавания превратится в абракадабру. Для более точного распознавания текста программы комбинируют различные методы, которые условно делятся на две категории: методы сопоставления с образцом и методы сопоставления признаков (более подробно о них читайте далее).
Реконструкция документа. После завершения процесса распознавания программа начинает воссоздавать страницы, с помощью встроенного словаря объединяя отдельные символы в слова, слова в предложения, предложения в абзацы и т.д. Для ускорения процесса используются результаты анализа макета страницы (этап 2). Кроме того, применяя специальные методы, программы пытаются учитывать грамматические особенности текста, чтобы в итоге получились корректные с точки зрения распознаваемого языка предложения.
Сохранение документа. OCR-приложение сохраняет распознанный документ в определенном пользователем формате (только текст – TXT; макет страницы – файлы Microsoft Word или PDF).

1-й этап. Сканирование бумажного оригинала. Сканирование большинства документов производится как правило в черно-белом режиме. Если есть необходимость сохранения иллюстрации и рисунков, то производиться сканирование в цвете или в градациях серого.
2-й этап. Распознавание структуры документа. С помощью специального программного обеспечения производится распознавание структуры документа и текста.
3-й этап. Распознавание текста. С помощью программного обеспечения производится распознавание текста. На этом этапе особенно важно правильно установить параметры программы, чтобы минимизировать ошибки распознавания. Количество ошибок распознавания зависит от таких параметров, как полиграфическое качество документа, размер и контрастность текста, сложность взаимного размещения элементов документа.
4-й этап. Проверка правильности распознавания. С помощью встроенных средств производится визуальная проверка соответствия неуверенно распознанных символов.
5-й этап. Проверка орфографических ошибок. С помощью четвертого этапа как правило не удается избавиться от всех ошибок, поэтому необходимо также проводить проверку орфографии, например встроенными средствами Microsoft Word.
6-й этап. Форматирование и оформление результирующего документа. На этом этапе формируется результирующий документ (как правило в Microsoft Word) Устанавливается единообразные значения параметром шрифта и абзацев. Производится размещение и формирование таблиц. Производится ручной дополнительный ввод текста, формул, таблиц, автоматизированное распознавание которых не удалось произвести.

 




Дата добавления: 2015-02-16; просмотров: 204 | Поможем написать вашу работу | Нарушение авторских прав




lektsii.net - Лекции.Нет - 2014-2025 год. (0.006 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав