Студопедия  
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Анализ текста

Читайте также:
  1. C.) Анализ современной среды и деятельности человека показывает, что она может быть названа
  2. F) Всестороннее изучение и анализ учебно-воспитательного процесса в целях координирования целостного педагогического процесса
  3. FMEA – АНАЛИЗ (FAILURE MODE AND EFFECTS ANALYSIS).
  4. I. Историко-философский анализ понятий «виртуальность» и «виртуальная реальность» с античного периода до XX века.
  5. II. Метод анализа оперы
  6. II. Начала математического анализа
  7. II. Работа над созданием собственного текста.
  8. II. Редактирование текста
  9. II. ТЕХНИКА И ТЕХНОЛОГИЯ ВОДОСНАБЖЕНИЯ И КАНАЛИЗАЦИИ
  10. II. Этапы сбора и анализа информации в стратегическом менеджменте

 

Одним из важных моментов анализа является многоуровневость представления структуры анализируемого текста. Используется следующая иерархия уровней:

исходный текст как линейная последовательность символов;

линейная последовательность морфологических структур;

линейная последовательность высказываний;

сеть взаимосвязанных МФЕ.

 

Соседние уровни явно связаны друг с другом, и на различных этапах анализа все уровни сохраняются, что позволяет воспользоваться информацией с любого уровня представления.

 

После проведения предварительного этапа проводится вторичная обработка.

 

Морфологический анализ решает частную задачу приведения всех слов к каноническому виду. Это первый этап анализа, в котором появляется явная многозначность, которая обусловлена совпадением морфологических структур у различных словоформ. Цель морфологического анализа состоит в получении основ, т.е. словоформ с отсечёнными окончаниями. Причём каждой словоформе ставится в соответствие значения грамматических категорий, т.е. совокупности грамматических значений (род, падеж, склонение и т.д.) Результатом является линейная последовательность морфологических структур, каждая из которых может иметь несколько вариантов.

 

Семантический анализ предполагает наличие естественно-семантического словаря. Входами такого словаря являются. Точность семантического анализа целиком определяется полнотой и корректностью семантического словаря. Следует отметить, что здесь под семантическим анализом понимается лингвистический семантический анализ, т.е. слова ЕЯ соотносятся с некоторыми «семантическими классами», которые никак не соотносятся с реальным миром.

 

На этапе семантического анализа происходит отбор нужных для данного предложения морфосемантических альтернатив и связывание слов в единую структуру. Результатом семантического анализа предложений является упорядоченное множество записей суперпозиций из базисных функций (лексических функций в терминологии модели «Смысл↔Текст») и семантических классов (базовых понятий) [1, 8]. Часть семантических классов в лингвистической формуле может оказаться незаполненными, что может объясняться неполнотой исходного предложения или наличием референций. Исходный порядок морфем не сохраняется, однако сохраняется линейность текста, который на этом этапе представляется как последовательность предложений на семантическом языке.

 

 

Дополнительный материал.

Автоматизированные системы обработки лингвистической информации.[править]

 

Проблема обработки огромного количества информации имеет два аспекта:

это автоматический сбор информации

автоматический разбор поступившей информации по данной тематике, проведенный на основе анализа текста документа.

 

Автоматизированные системы обработки информации могут использоваться:

для предварительной обработки информации;

для статистической обработки информации;

для контент анализа текстовой информации

 

Система TextAnalyst

 

Программа разработана в Московском научно-производственном инновационном центре «МикроСистемы». TextAnalyst используется в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов.

 


Дата добавления: 2015-04-20; просмотров: 4 | Нарушение авторских прав

1 | 2 | 3 | <== 4 ==> | 5 | 6 | 7 |


lektsii.net - Лекции.Нет - 2014-2021 год. (0.006 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав