Студопедия  
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Часть 1. Анализ ограничений, накладываемых на работу систем МП.

Читайте также:
  1. C.) Анализ современной среды и деятельности человека показывает, что она может быть названа
  2. DSM — система классификации Американской психиатрической ассоциации
  3. EIS и DSS системы.
  4. ERP-система
  5. F) Всестороннее изучение и анализ учебно-воспитательного процесса в целях координирования целостного педагогического процесса
  6. FMEA – АНАЛИЗ (FAILURE MODE AND EFFECTS ANALYSIS).
  7. GRID- системи
  8. I Объективные характеристики (потребление материальных благ; продолжительность жизни; система образования; время труда; показатель преступности);
  9. I. Историко-философский анализ понятий «виртуальность» и «виртуальная реальность» с античного периода до XX века.
  10. I. Общая часть

Работа системы МП осуществляется на следующих иерархически соподчиненных уровнях:

• автоматического предредактирования текста;

• лексико-морфологического анализа;

• контекстного анализа и анализа групп;

• анализа функциональных сегментов;

• анализа предложений;

• синтеза выходного текста;

• автоматического постредактирования.

Для полноценного использования системы МП переводчик должен представлять себе в общем виде общую процедуру анализа текста в системе, что позволит заранее готовить текст так, чтобы результат МП требовал минимального редактирования. Обработка текста в системе МП начинается с формального анализа текста. Задачей этого уровня автоматического предредактирования является предварительная разметка текста, в процессе которой определяются границы его отдельных разделов, заголовков, оглавления, рисунков, таблиц и формул. Кроме того, на этом уровне особым образом обрабатывается и запоминается для восстановления при синтезе перевода формально-графическая структура текста: фрагменты, выделенные особым шрифтом или строчными буквами, фрагменты, расположенные с особым, отличающимся от остального текста отступом и т.д. Подобная разметка является базой для дальнейшего анализа текста и для синтеза текста, точно повторяющего структуру исходного.

Результаты, получаемые на уровне автоматического предредактирования, зависят от того, насколько четко можно определить необходимые фрагменты, насколько корректно их выделение в исходном тексте.

Основой для дальнейшего компьютерного анализа является текст, разбитый по предложениям, поэтому в любой системе выделяется специальный модуль предварительного структурного анализа, который отвечает за разделение текста на предложения. Разбивка текста на предложения требует использования в системе специальных алгоритмов анализа знаков препинания, особенно точки, которая может быть как признаком конца предложения, так и частью аббревиатуры или имени собственного. Эта задача требует решения даже в том случае, когда в конце предложения точка отсутствует (как в случае заголовка).

Алгоритмы морфологического, синтаксического и семантического анализа реализуются в системах машинного перевода на разных уровнях: слов, функциональных групп, предложений. Результат их работы определяется тем, насколько однозначно могут быть приняты решения на основе вариативности результатов анализа на каждом уровне.

Следует ясно отдавать себе отчет в тех ограничениях, которые накладываются на результаты работы любой системы МП и, следовательно, должны быть учтены при ее использовании. Это ограничения:

1. вследствие локального перевода (перевода по предложениям), эта особенность приводит к тому, что в системе затруднен анализ связей внутри сверхфразового единства и поиск антецедентов, что приводит к неверному переводу местоимений-заместителей. Заметим, что такой локальный перевод соответствует некоторым теоретическим подходам к моделированию процесса перевода, так, например, для В.Н.Комиссарова единицей перевода является именно предложение (Комиссаров 1990: 188: ср. Bell 1993: 29)

Следовательно, при предварительном редактировании исходного текста необходимо обратить внимание на использование таких заместителей и по возможности заменить их соответствующими знаменательными словами;

2. вследствие особенностей работы со словами, отсутствующими в словарях системы (геоназваниями и именами собственными, фирменными знаками и редкими словами), что приводит к возможным нарушениям в синтаксическом анализе входного предложения. Кроме того, возможны ситуации неправильного опознавания имен собственных как имен нарицательных и, соответственно, их перевода.

При предварительном редактировании следует обратить внимание на использование таких имен и маркировать их так, чтобы не допустить их перевода;

3. вследствие вариативности использования терминов в исходном тексте, что может нарушить унификацию перевода терминологии в рамках одного и того же текста;

При предварительном редактировании следует проанализировать наиболее частотные номинации (используемые термины), окказиональные аббревиатуры, которые могут совпадать в различных терминологических системах и языках для специальных целей, а также способы использования дефисных конструкций

4. вследствие того, что в реальных текстах встречаются очень длинные предложения, а в системах введены ограничения на длину предложения, при которой синтаксическая структура распознается достаточно устойчиво.

Это ограничение может быть снято за счет предварительного редактирования очень длинных предложений;

5. вследствие линейности распознавания устойчивых коллокаций - так называемых машинных оборотов, которые составляют большую часть словарного обеспечения любой системы машинного перевода.

Одним из ограничений, затрудняющих работу переводчика и снижающих результат, получаемый системой машинного перевода, является наличие в тексте предложений, длина которых превышает 50 слов. Такого рода конструкции часто встречаются в научных и технических текстах, однако особенно сложными они являются в текстах гуманитарных.

Опыт показывает, что при средней длине предложения в 12 слов результат МП оптимальный, однако в реальном тексте этот показатель очень часто превышается. Так, средняя длина предложения в газете составляет 22,4 слова, но исследования показывают, что максимальная длина предложения в этом типе текстов может достигать 199 слов. Поэтому одной из функций пользователя, желающего получить результат МП, требующий минимального редактирования, является просмотр текста для упрощения структуры и уменьшения длины самых сложных фрагментов текста. Очень часто такое редактирование позволяет уточнить смысл переводимых фрагментов, которые в техническом тексте также могут иметь очень большую длину.

Предредактирование текста необходимо для установления единства используемой терминологии: неверные результаты перевода часто возникают в результате расхождения между данными, извлекаемыми из текста, и номинацией соответствующих объектов в словаре. Предредактирование должно использоваться для исправления ошибок, допускаемых в глобальном английском языке.

Следует помнить, что при переводе любого вида особым этапом является предпереводческий анализ текста и его предварительное редактирование. Независимо от того, использует ли переводчик в своей работе информационные технологии, переводческая деятельность предполагает этап понимания текста, освоение его содержания. Стратегия освоения содержания текста переводчиком на стадии допереводного анализа текста направлена «снизу вверх»: уровень знаков языка – уровень высказывания – уровень структуры сообщения – уровень описания ситуации – уровень цели коммуникации (Комиссаров 1990; ср. Bell 1991). Перемещение текста из одного языкового пространства в другое требует знание «языка автора», т.е. того, как он описывает конкретный экстралингвистический объект, явление или процесс (Медведовская 2009:41). Подсказкой, средством для выявления этого языка является сам текст, лексическая структура которого является отражением концепта автора.

Даже в случае отсутствия времени на детальное предредактирование, следует помнить, что некоторые преобразования текста, имеющего электронный формат, приводят к его формальному нарушению. Так, например, преобразование текста из формата .pdf в любой из форматов .doc или. rtf приводит к появлению «оборванных» строк, каждая из которых воспринимается системой машинного перевода как отдельное предложение.

Рассмотрим эту ситуацию на примере конкретного предложения в формате .pdf, которое после преобразования в формат .doc выглядит следующим образом::

This paper examines the role that summaries

can play in document retrieval. Thirty

searches are applied to full-text and

summaries only in large document

collections, and the results are evaluated

using two different evaluation scopes.

Перевод этого фрагмента системой машинного перевода оказывается мало понятным:

Эта статья исследует те резюме роли

может играть в информационном поиске. Тридцать

исследования применяются к полному тексту и

резюме только в большом документе

сборники, и результаты оценены

использование двух различных сфер действия определения качества.

В случае приведения исходного текста к стандартному виду получаем текст, который понятен и легко может быть отредактирован:

This paper examines the role that summaries can play in document retrieval. Thirty searches are applied to full-text and summaries only in large document collections, and the results are evaluated using two different evaluation scopes.

è

Эта статья исследует роль которую резюме могут играть в информационном поиске. Тридцать исследований применяются к полному тексту и резюме только в больших сборниках документа, и результаты оценены используя две различных сферы действия определения качества.




Дата добавления: 2015-04-11; просмотров: 27 | Поможем написать вашу работу | Нарушение авторских прав

1 | <== 2 ==> | 3 | 4 | 5 |


lektsii.net - Лекции.Нет - 2014-2024 год. (0.008 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав