Читайте также: |
|
Некоторые источники
Баранов А.Н. Введение в прикладную лингвистику. М., 2001. Марчук Ю.Н. Основы компьютерной лингвистики. М., 2000.
Баевский В. С. Лингвистические, математические, семантические и компьютерные модели в истории и теории литературы. М., 2001.
www.dialog-21.ru www.aot.ru www.ruscorpora.ru и др.
Журнал «Literary and Linguistic Computing»
Пересечение дисциплин
ИТ/КТ [в гуманитарных сферах]
Компьютерная лингвистика
Прикладная лингвистика
Автоматическая обработка текста
Статистические методы в анализе текста: лингвистика, литературоведение и фольклористика
Названия направлений и дисциплин
квантитативная лингвистика
понятие «квантификация знания»
вычислительная лингвистика
компьютерная (computational) лингвистика
инженерная лингвистика
математическая лингвистика
прикладная (applied) лингвистика
корпусная лингвистика
Двоякое понимание ИТ/КТ в гуманитарных сферах
использование ИТ/КТ в собственно гуманитарных исследованиях
использование компьютеризованных гуманитарных моделей в разных сферах деятельности
Самый простой вариант
Компьютерные/информационые технологии нужны магистру для того, чтобы набрать текст своей диссертации.
Более сложный вариант
Компьютерные/информационые технологии нужны магистру для того, чтобы:
пользоваться возможностями базы данных (корпус, словарь и т.п.) или различных узкоспециальных программ (например, обработки звука) для своих исследований;
работать с информацией в сферах прикладной филологии (WEB-дизайн, редакционно-издательская и архивная деятельность.
Еще более сложный вариант
Компьютерные/информационые технологии нужны магистру для того, чтобы алгоритмизировать и отработать на огромном материале свои модели текста.
Совсем сложный вариант
Экстрафилологический вариант: компьютерные/информационые технологии нужны магистру для того, чтобы создать алгоритмы автоматической обработки языковой информации, которые могли бы применять нефилологи, нелингвисты.
В любом случае –
междисциплинарный характер обсуждаемых тем.
Традиционно прикладные направления
Транскрипция речи. Транслитерация.
Повышение скорости набора текста. Проверка грамотности.
Преподавание иностранных языков.
Логопедия, нейролингвистика и проч.
Систематизация терминологии. Построение терминосистем.
Лексикография. Словари и справочники.
Создание и изучение искусств. языков.
Моделирование текста (в том числе ХТ).
Текст как основная единица изучения филологии
автоматизация его обработки на разных уровнях, проблемы и решения
Практика применения АОТ
распознавание речи,
машинный перевод,
автоматическая классификация документов,
аннотирование текстов,
кодирование текстов,
информационный поиск
(полу)автоматический набор текста
и т.д.
Не собственно гуманитарные сферы пересечения интересов
социология
психология
политика
криминалистика и юриспруденция
библиотечное дело
информатика
искусственный интеллект
…
Кто наши работодатели?
Лингвистика — Гуманитарная сфера?
1. Особенности лингвистических объектов
2. Общие интересы наук:
лингвистика биология, физика
лингвистика социология, психология
лингвистика «математика, информатика
… … …
? лингвистика литературоведение
Методологические основы
Оптимизация языка. Моделирование.
Формализация языковых данных.
Словарь как традиционный пример формализованного описания.
Но и он делается для человека-читателя.
Словарное толкование (МАС)
ХИРУ́РГ, -а, м. Врач — специалист по хирургии.
ХИРУРГИ́Я, -и, ж. Раздел медицины, изучающий заболевания, основным методом лечения которых является оперативное вмешательство, и разрабатывающий приемы, методы и технику выполнения операций.
ВРАЧ… СПЕЦИАЛИСТ…
МЕДИЦИНА… ЗАБОЛЕВАНИЕ… ОПЕРАЦИЯ…
КОМПОНЕНТНЫЙ АНАЛИЗ
Многозначное слово (МАС)
ДЕ́ЛАТЬ, несов., перех. (сов. сделать).
1. Создавать обычно с помощью инструментов, специальных приспособлений, машин и т. п. различного рода предметы, вещи, изделия; изготовлять, производить. Делать станки.
2. Заниматься чем-л., работать, проявлять какую-л. деятельность. Я хотел приняться за работу — не мог; хотел ничего не делать и не думать …
3. Поступать, действовать каким-л. образом. Делать все по-своему.
4. из кого-чего. Обращать, превращать в кого-, что-л. Делать из кого-л. посмешище.
◊ Делать авансы кому см. аванс; Делать акцент на чем см. акцент; Делать вид см. вид1; Делать большие (или круглые) глаза см. глаз; Делать из мухи слона см. муха; Не делать секрета из чего см. секрет1; От нечего делать — от безделья, от скуки … …
Сколько единиц хранения?
Предпосылки развития ИТ:
Человек и информационная среда
проблема ввода, распознавания, обработки информации
изменчивость и разрастание информационного пространства
дефицит времени и денег
развитие и интеграция информационных устройств
Предпосылки:
Развитие научной базы
математика и информатика
психология, социология и т.д.
когнитивная лингвистика, теория представления знаний
! Скорость развития прикладной лингвистики и информационных технологий, гигантский скачок за последние 30 лет
Влияние ИТ на традиционные гуманитарные методологии
использование теор. данных
постановка новых теор. задач, новые требования к четкости определений, логичности классификаций
выявление нерешенных проблем
Статистика и гуманитарные науки
Конструкции из теор. работы
интересно также отметить и…
часто встречается у… (характерно для…)
С другой стороны:
Мат. методы (в том числе математическая статистика) – это лишь инструмент для работы. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.
Иными словами, даже верные статистические показатели могут создать картину, которая противоречит языковой действительности.
ИТ: данные о языке…
(как грамматику, так и семантику)
можно представить формализованно
перевести в компьютерный алгоритм.
Различия в гуманитарной и естественнонаучной методологии
Филология vs. Математика
Лингвистика vs. Литературоведение
Специфика гуманитарных исследований
Неточность, расплывчатость понятий и определений.
Преобладание качественных характеристик их основных объектов.
Ограниченность возможностей проведения активного эксперимента.
Большой объем исходной информации.
Именно второй пункт крайне осложняет построение формализованных теорий в филологии.
Острота четвертого пункта в отношении текстового анализа постепенно снимается с развитием компьютерных систем и корпусных проектов.
Направления ИТ/языковых технологий
Автоматический анализ и синтез речи.
Современная лексикография. Создание лексических тезаурусов.
Корпусная лингвистика.
Информационный поиск.
Автоматическое аннотирование.
Кодирование/декодирование текста.
Компьютерная проверка правописания и грамматики. Упрощение ввода текста, системы «интеллектуального ввода».
Новые средства интерфейса электронных устройств.
Лингвистические аспекты борьбы с вирусами. Антиспам.
Автоматический перевод.
Атрибуция (определение авторства) текста.
Политическая и юридическая лингвистика.
Лингвистические экспертизы.
Проблемы ТЕСТологии.
Искусственный интеллект как лингвистическая проблема.
Структура курса
I. Введение.
II. Проблемы и квантитативно-лингвистические методы АОТ.
III. Информационные технологии – сферы приложения АОТ и лингвистических знаний.
IV. Практические задания.
ческой обработки текста (АОТ)
Уровни языка и речи: классические представления
Уровни автоматической обработки текста
Генеральные проблемы АОТ
сегментация речи
снятие омонимии (разрешение многозначности)
Уровни АОТ: Фонетика и графика
1. Фонетика и графика
Компьютерный интерфейс: ввод данных
Анализ и синтез устной речи
понять и среагировать (анализ)
первичная акустическая сегментация
смысловая интерпретация
преобразовать и выдать (синтез)
смысловой синтез
акустический синтез
Спектрограммы (сонограммы) речи
Трудности первичной сегментации речи
плавность речевого потока
огромное количество звуковых нюансов, специфическая сочетаемость звуков
отсутствие пауз между словами, несоответствие пауз и синтаксических единиц
наличие интонации, мелодическая изменчивость
индивидуальные особенности речи
… …
Примеры сфер функционирования
информационно-справочные службы
интерфейс минимизированных электронных устройств
голосовое меню
диктовка рукописного текста
устное задание вычислений
управление поведением роботов
криминалистика
… …
Синтез речи-1
Моделирование речевого аппарата:
артикуляторный синтез
Синтез речи-2
Моделирование звукового сигнала (акустический синтез):
а) формантный синтез (по правилам),
б) компилятивный синтез
Формантный синтез
Генерация сигнала источником (синтезатором)
Фильтрация исходного сигнала, моделирование параметров голосового тракта.
Компилятивный синтез
«Склейка» речи из имеющихся единиц
(пример с сайта каф. фонетики СПбГУ)
Системы типа Text To Speech (TTS)
Пример:
SVOX Automotive Text-To-Speech is available in 29 languages and 40 different voices.
Интеграция в операционные системы, мобильные телефоны, электронные книги, GPS-навигаторы
Общая схема систем TTS
Front-end и Back-end фрагменты TTS
TTS Voices (Microsoft Anna, english voice):
Пример русского голоса (комп. Acapela):
http://www.acapela-group.com/russian-130-text-to-voice.html
Распознавание письменного текста
Проблемы интерпретации символов
разные начертания букв
«шум»
неровность строк
опечатки, в том числе правдоподобные
Методы распознавания текста
шаблонные
признаковые
структурные
структурно-пятенные
Уровни АОТ: Словообразование
2. Словообразование
Главные проблемы АОТ
Сегментация и снятие омонимии
(на морфемном уровне)
лист-в-енн-иц-а
? лист-в-ен-ниц-а
? лист-в-е-нн-ица
? лист-венниц-а
… …
Проблема описания значений морфем
Определение инвентаря морфем
Принципы формализация подачи информации в словарях морфем и грамматиках
Проблема идиоматичности слова
Подснежник = предмет (-ник), находящийся ниже (под-) [снега].
Снег – мин. непроизводная единица.
Вопрос применимости для извлечения информации о лексическом значении
Проблема неуниверсальности СО-моделей
тигр + -иц- = тигрица
тигр + -енок = тигренок
Аналогично:
лев – левица – левенок (?)
бык – бычица – бычонок (?)
Проблема морфемного варьирования
ДРУГ
дру[г]а, дру[к], о дру[г’]е
ДРУЖОК
дру[ж]ок, дру[ш]ка
ДРУЗЬЯ
дру[з’]ья
музей – музея – музеи:
музе(j)-0 – музе(j)-а – музе(0)-и
СО-синтез. Частный пример лингвистической формализации
красный – краснота
гладкий – гладкость
синий – синева
желтый – желтизна
… …
Разветвленная модель, позволяющая на основании формальных и семантических (!) признаков определить, образуется или не образуется слово.
Преобладание форманта -ость
верный – верность краткий - краткость
Специфика активных словообразовательных моделей
Модели, позволяющие на основании формальных и семантических признаков определить, образуется или не образуется слово.
Разветвленность и громоздкость алгоритмов. Включенность неавтоматизированных элементов.
Сложность русского словообразования.
Выводы:
Словообразовательные структуры проще давать списком, гнездами, тем более что сегодня можно позволить себе затратность в плане компьютерных ресурсов.
С другой стороны, описание аффиксов может быть полезно в процедуре морфологического и семантического анализа слов, отсутствующих в БД:
* компьютерность (мышления)
компьютерн-ый + -ость.
Применимость СО-анализа
в практике обучения РКИ
в системах машинного перевода
как дополнение разных видов АОТ
Но!
Ограниченность использования из-за перечисленных проблем.
Уровни АОТ: Морфология
3. Морфология
Задачи
обобщение грамматических форм
(окно – окна – окне – окнами и т.п.)
в различных программах, связанных с АОТ
разведение форм, относящихся к разным парадигмам (disambiguation, снятие неоднозначностей):
после – 1) после (нар.), 2) после (предл.), 3) посол (сущ.)
Морфологическая классификация языков
изолирующие
отсутствие словоизменения, грамматическая значимость порядка слов, слабое противопоставление знаменательных и служебных слов.
агглютинирующие
развитая система словоизменения, единый тип склонения и спряжения, грамматическая однозначность аффиксов, отсутствие значимых чередований
инкорпорирующие
возможность включения в состав глагола-сказуемого других членов предложения, иногда с сопутствующим морфонологическим изменением основ
флективные – наверно, самые продуктивные и интересные для разработки моделей морфологического анализа
полифункциональность грамматических морфем, наличие фонетических явлений на их стыках, фонетически не обусловленные изменения корня, большое число фонетически и семантически не мотивированных типов склонения и спряжения.
Граматический словарь
А. А. Зализняка
Примеры словарных статей
1/бол<еть нсв нп 1a (_о живом существе_)
2/бол<еть нсв нп 5b (_о частях тела_)
б>олеутол<ение с 7a
б>олеутол<яющий п 4a
болив<ар м 1a (_шляпа_)
бол<ивар м 1a (_денежная единица_)
болив<иец мо 5*a
болив<ийка жо 3*a
болив<ийский п 3a!&
болигол<ов м 1a
бол<ид м 1a
Особенности именной парадигмы падежей
nom — именительный падеж (голова, сын, степь, сани, который)
gen — родительный падеж (головы, сына, степи, саней, которого)
dat — дательный падеж (голове, сыну, степи, саням, которому)
acc — винительный падеж (голову, сына, степь, сани, который/которого)
ins — творительный падеж (головой, сыном, степью, санями, которым)
loc — предложный падеж ([о] голове, сыне, степи, санях, котором)
gen2 — второй родительный падеж (чашка чаю)
acc2 — второй винительный падеж (постричься в монахи; по два человека)
loc2 — второй предложный падеж (в лесу, на оси́)
voc — звательная форма (Господи, Серёж, ребят)
adnum — счётная форма (два часа́, три шара́)
Особенности глагольной парадигмы
инфинитив
личные формы
причастия (грамматически прилагательные)
деепричастия
Итого около 150 форм + возвратные
(» 80)
Прочие проблемы
Чисто флективные классы:
стол – стола – столы
Словоизменение с чередованием:
потолок – потолока – потолоки (?)
Словоизменение с супплетивизмом:
человек – человека – человеки (?)
меня – меню – мень (?)
По словарю А. А. Зализняка
8 типов именного словоизменения (с подтипами)
16 типов глагольного словоизменения (с подтипами)
особые типы склоненичя местоимений, числительных и т.д.
наличие «изолированной» лексики, не подчиняющейся общим моделям (глаголы типа БЫТЬ)
«Многословные» слова, коллокации, фразеологизмы
Самый общий термин – неоднословные целостности:
В течение, в виде, без устали, на ощупь, до упаду
Крутиться (крутится, кручусь, крутилась…) как белка в колесе
Положить (положишь, положил…) зубы на полку
Черт с… (тобой, ним, этим, лекцией…)
Пример работы морфоанализатора
Исходный текст
Вывод программы (Mystem, Яндекс) http://company.yandex.ru/technologies/mystem/
Вывод программы (Mystem, Яндекс) http://company.yandex.ru/technologies/mystem/
Проблема грамматической омонимии
стекла – стечь
стекла – стекло
при – при (предлог)
при – переть (императив)
при – пря (напр. род. п. ед. ч.) = устар. ссора, спор, состязание; то же, что распря.
Формально-графический принцип анализа
Основа + флексия:
мыш-Ь
мыш-И
мыш-И
мыш-Ь
мыш-ЬЮ
мыш-И
Виды морфоанализа
со словарем основ
со словарем словоформ
методом логического умножения
без словаря, с помощью таблиц
Чистый стеммер малопродуктивен для РЯ:
* кровать – кроваю – кроваешь – по типу читать (?)
* кровать – кровлю – кровишь – по типу спать (?)
* кровать – крую – круешь – по типу сновать (?)
Требования к современному алгоритму
объем словаря (покрытие 98-99%)
словоизменительный алгоритм
эффективная гипотетическая обработка новых слов
обучаемость системы
технические характеристики
Использование морфоанализа
системы информационного поиска
лингвистические корпуса
машинный перевод
автоматизированная проверка грамотности
… … …
Самые известные свободно распространяемые программы русского морфологического анализа:
MyStem (Яндекс)
Диалинг, Dialing (АОТ.ру)
Снятие неоднозначностей: постморфология
частота употребления форм:
при – предлог, при – от устар. пря
а – союз, частица, междометие, существительное?
анализ ближайшего контекста, шаблоны:
Л. П. Быков, профессор, зав. кафедрой
учет повторных употреблений в тексте
Быков – Быкова – Быковым. В одном контексте (?):
* Быков пасет пастух Быков.
подробный синтаксический анализ:
функция в предложении, особенности согласования, управления и т.п.
подключение словарей оборотов:
в + течение = в_течение (предлог)
Общие проблемы морфоанализа
объем словаря (больше или меньше?)
развитие системы (пополнение и чистка базы)
Уровни АОТ: Синтаксис
4. Синтаксис
Цель анализа
получить при помощи алгоритмов синтаксическую структуру предложения:
определить члены предложения и отношения между ними
определить структурный тип предложения
Синтаксический анализатор (парсер, парсинг)
Интернациональные эквиваленты
parser
parsing engine
Синтаксис и морфология
Светит незнакомая звезда,
Снова мы оторваны от дома…
Форма слова и член предложения.
(Не)морфологизированный член предложения.
Синтаксис и семантика
Дороги размыли дожди.
Дожди вызвали аварии на дорогах.
Член предложения и лексическое значение (+ фоновые знания, пресуппозиции высказывания)
Синтаксис и пунктуация
Ветер по морю гуляет
И кораблик подгоняет.
Казнить__нельзя__помиловать.
Член предложения, типы предложений, их границы и знаки препинания
Синтаксическая омонимия
Делегация из Петербурга прибыла в Москву.
Обвиняемого в убийстве священника Адельгейма потребовали принудительно лечить…
Проблема порядка слов
Мой отец – хороший специалист.
(тире может и не быть…)
Хороший специалист мой отец.
Белеет парус одинокий
В тумане моря голубом.
* Одинокий парус белеет в голубом тумане моря.
Дистантное расположение
и эллипсис
Специалист мой отец хороший.
Прикладная лингвистика, как мне кажется, интересный предмет.
Шапочка знала, что, если дернуть за веревочку, дверь откроется.
Мне два до Москвы.
Я за свечку, свечка – в печку!
«Ты куда?» – «На лекцию».
1-й этап. Синтаксическая сегментация
Выделение предложений при анализе текста (абзаца). Формальные маркеры.
[Берлиоз] побледнел, вытер лоб платком, подумал: "Что это со мной? Этого никогда не было… сердце шалит… я переутомился. Пожалуй, пора бросить все к черту и в Кисловодск…“
Прокуратор дернул щекой и сказал тихо:
— Приведите обвиняемого.
Сегментация предложения
Минимальная синтаксическая единица.
С точки зрения теор. лингвистики – только словоформа.
С точки зрения прикладной лингвистики – словоформа или оператор (знак препинания или союз). Они вскрывают синтаксические отношения
Сегментация предложения
Построение дерева синтагм и дерева сегментов.
Дерево («граф» – что это такое?)
«Синтагма» в теоретической и прикладной лингвистике
Вчера выпал снег.
«Сегмент» = клауза (фрагмент предложения) в теоретической и прикладной лингвистике.
Выделение сегментов
Вчера выпал снег, заваливший всю область.
Вчера выпал снег, который завалил всю область.
2-й этап. Способы представления структур
Модель предложения можно представить (изобразить, формализовать) двумя традиционными способами:
грамматика зависимостей
грамматика составляющих
Грамматика зависимостей
Я иду в магазин за хлебом.
Я иду ® за хлебом
в
магазин
Бинарные отношения
Наличие корня (иду)
Грамматика составляющих
Предложение
Я иду
за хлебом
в магазин
Классификация парсеров
По способу движения:
Непрерывные
Циклические
По выявляемым отрезкам
Интегральные
Локальные
Языковые средства, применяемые при парсинге
Словоизменение +
Учет морфологических признаков =
МОРФОАНАЛИЗ
Классический пример Л.В.Щербы:
Глок-ая куздр-а штеко будланул-а бокр-а
и кудряч-ит бокрёнк-а.
Выбрал президента – выбрал «Президент» (сыр, шоколад, отель…)
Языковые средства, применяемые при парсинге
Языковые универсалии (члены предложения и проч.)
Служебные слова
Пунктуация
Порядок слов
Интонация (?)
Интонация как синтаксическое средство
Пример А. Е. Кибрика:
В этой гимназии учился впоследствии всемирно известный киноартист.
Полезные синтаксические ограничения
Порядок слов, «проективность» предложения
Сегодня мне приснился странный сон.
«Непроективное» предложение:
Странный мне приснился сон сегодня.
Полезные синтаксические ограничения
Зависимость любой синтаксической структуры от одной вершины.
люблю
вас
люблю и боюсь И
вас люблю боюсь
вас
Полезные синтаксические ограничения
Один субъект и один предикат в структуре сегмента, кроме случаев сочинительных отношений между субъектами и предикатами:
Арлекин и Пьеро прыгали и кричали.
Выводы: общие проблемы парсинга
Сложность языковой системы, свободный порядок слов во многих языках
Неуниверсальность синтаксических моделей в плане анализа разных языков
Коррекция результатов человеком («ручная» работа)
Вопрос о нужности анализа синтаксических структур при семантическом анализе.
Семантическая эквивалентность
Вчера выпал снег, заваливший всю область.
Вчера выпал снег, который завалил всю область.
Уровни АОТ: Семантика
5. Семантика слова, фразы, текста
Семантический анализ
Генеральная цель – представить структуру предложения и текста в виде однозначной формальной схемы.
Семантический анализ
А я иду, шагаю по Москве…
S: Человек [сообщает о себе]
P: движется *ногами [вероятно, быстро и свободно]
Loc.: по столице [главному городу] России (СССР)
Семантические примитивы
Возможный последующий семантический синтез
перефразирование
автоматический перевод
выделение ключевых слов («терминов»)
построение парадигматических сетей (в первую очередь синонимов)
реферирование, в том числе синтез связного текста, определяемого содержанием исходного текста
Применимость
автоматический перевод
аннотирование и реферирование
сбор информации, «досье»
каталоги и рубрикация
антиспам
естественный диалог
… искусственный интеллект
! Тесная связь с АОТ на других уровнях
Проблемы: много, как всегда
идиоматичность семантики Þ неформализованность!
пересекаемость сем. парадигм
Храпеть – спать? (физиология)
Храпеть – издавать звуки? (звучание)
многозначность («омонимия») и синонимия (асимметричность языкового знака)
Проблемы: много, как всегда
наличие составных наименований (любых «неоднословных целостностей»)
контекстная обусловленность, влияние речевой ситуации
изменяемость действительности
Словарь глаголов
/ Под общ. ред. проф. Л. Г. Бабенко (Москва, АСТ-Пресс, 1999, 2007)
Общая структура словаря
I. Действие и деятельность
1.1. Движение
1.2. Перемещение объекта
1.3. Помещение
1.4. Физическое воздействие
1.5. Созидательная деятельность
1.6. Интеллектуальная деятельность
1.7. Речевая деятельность
1.8. Социальная деятельность
1.9. Физиологическая деятельность
1.0. Звучание
II. Бытие, состояние, качество
2.1. Бытие
2.2. Качественное состояние
III. Отношение
3.1. Взаимоотношение
3.2. Владение
3.3. Межличностные отношения
3.4. Социальные отношения
Как применять идеографическую систему?
Важные лексикологические установки
связь синтагматики (употребления) с парадигматикой (системными связями между словами):
доехать – дойти – доплыть – долететь
контекст и «семная поддержка»
валентность слова и контекстные факторы, влияющие на реализацию значения
Контекстные факторы и семантический анализ
Назначить
1. Заранее наметить, определить (срок, совершение какого-л. действия и т.п.)
3. кого кем. Поставить, направить на какую-л. должность, работу.
5. Мед. Предписать (лечение, прием лекарства и т.п.)
Промежуточные выводы
Без семантического словаря (тематического, идеографического, тезауруса) не обойтись!
Результат семантического анализа –упорядоченное множество записей, связывающих слова с семантическими классами и выражающих определенные семантические отношения.
Анализ на уровне словосочетания и фразы
Теоретические проблемы:
Что такое словосочетание?
Что такое предложение?
Ответы возможны с теоретической и прикладной точек зрения.
Единственно верного ответа нет (?)
Модель «СМЫСЛ Û ТЕКСТ»
И. Мельчук
А. Жолковский
Ю. Апресян
многоуровневая формализованная модель преобразования смысла в текст и обратно
Основы «семантического языка»
опора на семантические примитивы
(слово как структурированая комбинация элементарных заданных смыслов:
столик = стол + маленький
учительница = учитель + женщина = человек + учить + женщина =?)
малый объем словаря
отсутствие многозначности
Составляющие системы
Семантический словарь
Дискурсный семантический граф
Правила анализа семантических отношений
Парадигматика и синтагматика
семантические характеристики ® категоризация
семантические отношения
Принципы категоризации лексики
«Человек» (сем. группа):
учитель, строитель, следователь, священник, покупатель, рыбак, продавец, ученик, преступник…
Сферы действительности (денотативные группы)
«Образование»: учитель, ученик
«Право»: преступник, следователь
«Религия»: священник…
Принципы категоризации лексики
Словари группы «Русский глагол»
Семантический словарь под редакцией Н. Ю. Шведовой
Семантическая разметка в Национальном корпусе русского языка
Система «Диалинг»
Обобщенная категоризация (Диалинг)
предикаты
объектные слова
«модификаторы» (напр. частица НЕ)
маркеры сем. отношений (часть, признак и т.п.)
«стоп-слова» (stop-words)
Сем. структура предложения
ПРОПОЗИЦИЯ
Субъект
Предикат
Актанты
Вася вбил молотком гвоздь в стену.
Семантические характеристики: система «Диалинг» (AOT.ru)
Семантическое отношение
Универсальная бинарная смысловая связь между словами, идет от одного понятийного узла (обладающего набором характеристик) к другому.
Семантическое отношение
R (A, B), где R – название отношения,
A – зависимое понятие
B – управляющее понятие
Принцип: A является R для B
Реализации семантического отношения
Поэма Пушкина, пушкинская поэма.
Поэма написана Пушкиным.
Пушкин написал поэму.
Поэма принадлежит перу Пушкина…
Сравним семантические и синтаксические отношения и вспомним, что некоторые модели семантического анализа отказываются от полной формализации синтаксических структур.
Пример записи СО
Встреча назначена на пять часов.
ВРЕМЯ (пять часов, встреча)
Семантические отношения: система «Диалинг» (aot.ru)
Схема анализа на AOT.ru
Пример анализа фразы (Диалинг)
Мы разговаривали так, как будто расстались вчера, как будто знали друг друга много лет.
М. Булгаков, «Мастер и Маргарита»
Пример анализа фразы
Работа на уровне текста: формализация структуры
микроструктура
макроструктура
суперструктура
Единство темы как важное свойство текста
регулярная повторяемость ключевых слов
тождество референции (соотношение с одним объектом номинации)
наличие ситуативных связей
Семантическая сеть
интегральное представление смысла текста – множество понятий (слов, словосочетаний), связанных по смыслу и выстроенных иерархически
Пример программы: TextAnalyst SDK (analyst.ru)
Пример анализа текста:
В киевском зоопарке барсук ушел к кунице
Барсук, живущий в киевском зоопарке, совершил побег из своего вольера. Хищное млекопитающее далеко уйти не смогло - вскоре после того, как животное выбралось из своего жилища, его нашли в вольере у куницы, сообщает "Сегодня" со ссылкой на директора зоопарка Алексея Толстоухова <…>
Ранее в киевском зоопарке был зафиксирован массовый побег зверей. Так, в сентябре из зоосада сбежали лисица, 8 дикобразов и 7 сурков. Сурки сделали подкоп под своим вольером и спрятались в вырытых норах. Дикобраза и лисицу поймали на территории зоопарка.
Рабочее окно программы
Рабочее окно программы
Реферирование документа
Выводы
Связь семантического анализа с проблемами искусственного интеллекта.
Перспективы использования семантического анализа.
Машинный перевод как наиболее сложное направление в ИИ.
Затратность создания алгоритмов.
Способы решения проблем.
Дата добавления: 2014-12-20; просмотров: 247 | Поможем написать вашу работу | Нарушение авторских прав |