Читайте также:
|
|
Машинный синтез осмысленных текстов и использование ЭВМ для их сочинения преследуют две важные цели. Во-первых, нужно наладить удобный для человека диалог с машиной. Ведь общение с ЭВМ идет по большей части с помощью специальных языков, сильно отличающихся от естественных, и люди, не владеющие такими специальными языками (изучение которых требует времени и значительных усилий), не могут работать с ЭВМ. Возникает естественная задача: научить ЭВМ воспринимать и "понимать" тексты, указания, команды, сформулированные на естественном языке, а также выдавать результирующую информацию, отвечать на вопросы также на естественном языке.
При разработке интерпретирующей системы необходимо уточнять, каким образом ограничиваются возможности выбора, которыми располагает говорящий в любой данный момент (например, эти уточнения могут быть записаны в виде грамматики), но зато не требуется формулировать причины выбора той или иной возможности 2. система не рассматривает того, почему автор употребил пассивную форму, а не сделал другой возможный в данный момент выбор. генератор должен располагать достаточно общими принципами для принятия такого решения, которое он может использовать во всех похожих ситуациях. В то время как исследование в области процессов интерпретации может ограничиться описанием ограничений, налагаемых на имеющиеся возможности для наиболее эффективного выбора одной из них, исследование в области процессов синтеза должно для различных ситуаций устанавливать, почему одна возможность лучше других 3.
Анализ
Большие объемы информации, хранящейся в электронном виде, привели к неэффективности применения в поисковых системах алгоритмов контекстного поиска, выполняющих поиск путем последовательного просмотра текста документов. Так как в данном случае, при получении очередного запроса от пользователя приходится просматривать всю коллекцию документов заново, и, как следствие, время выдачи результата поисковой системой становится неприемлемо большим. В связи с этим получили распространение системы с предпроцессингом, то есть с предварительной обработкой (индексированием) всех имеющихся в системе документов.
С обработкой информации на естественном языке связан ряд проблем, основные из которых перечислены ниже:
l Синонимия. Одно и тоже понятие может быть выражено различными словами. В результате релевантные документы, в которых используются синонимы понятий, указанных пользователем в запросе, могут быть не обнаружены системой.
l Устойчивые сочетания слов. Словосочетания могут иметь смысл отличный от смысла, который имеют слова по отдельности.
l Омонимия и явления «смежные с омонимией». Грамматические омонимы - разные по значению слова, но совпадающие по написанию в отдельных грамматических формах. Это могут быть слова одной или разных частей речи. Лексические омонимы - слова одной части речи, одинаковые по звучанию и написанию, но разные по лексическому значению. Как следствие, системой могут быть выданы нерелевантные документы.
l Морфологические вариации. Во многих естественных языках слова имеют несколько морфологических форм, различающихся по написанию.
Можно выделить два основных подхода к обработке документов в поисковых системах: статистический и лингвистический.
Дата добавления: 2015-04-20; просмотров: 60 | Поможем написать вашу работу | Нарушение авторских прав |