Читайте также:
|
|
Работа системы МП осуществляется на следующих иерархически соподчиненных уровнях:
• автоматического предредактирования текста;
• лексико-морфологического анализа;
• контекстного анализа и анализа групп;
• анализа функциональных сегментов;
• анализа предложений;
• синтеза выходного текста;
• автоматического постредактирования.
Для полноценного использования системы МП переводчик должен представлять себе в общем виде общую процедуру анализа текста в системе, что позволит заранее готовить текст так, чтобы результат МП требовал минимального редактирования. Обработка текста в системе МП начинается с формального анализа текста. Задачей этого уровня автоматического предредактирования является предварительная разметка текста, в процессе которой определяются границы его отдельных разделов, заголовков, оглавления, рисунков, таблиц и формул. Кроме того, на этом уровне особым образом обрабатывается и запоминается для восстановления при синтезе перевода формально-графическая структура текста: фрагменты, выделенные особым шрифтом или строчными буквами, фрагменты, расположенные с особым, отличающимся от остального текста отступом и т.д. Подобная разметка является базой для дальнейшего анализа текста и для синтеза текста, точно повторяющего структуру исходного.
Результаты, получаемые на уровне автоматического предредактирования, зависят от того, насколько четко можно определить необходимые фрагменты, насколько корректно их выделение в исходном тексте.
Основой для дальнейшего компьютерного анализа является текст, разбитый по предложениям, поэтому в любой системе выделяется специальный модуль предварительного структурного анализа, который отвечает за разделение текста на предложения. Разбивка текста на предложения требует использования в системе специальных алгоритмов анализа знаков препинания, особенно точки, которая может быть как признаком конца предложения, так и частью аббревиатуры или имени собственного. Эта задача требует решения даже в том случае, когда в конце предложения точка отсутствует (как в случае заголовка).
Алгоритмы морфологического, синтаксического и семантического анализа реализуются в системах машинного перевода на разных уровнях: слов, функциональных групп, предложений. Результат их работы определяется тем, насколько однозначно могут быть приняты решения на основе вариативности результатов анализа на каждом уровне.
Следует ясно отдавать себе отчет в тех ограничениях, которые накладываются на результаты работы любой системы МП и, следовательно, должны быть учтены при ее использовании. Это ограничения:
1. вследствие локального перевода (перевода по предложениям), эта особенность приводит к тому, что в системе затруднен анализ связей внутри сверхфразового единства и поиск антецедентов, что приводит к неверному переводу местоимений-заместителей. Заметим, что такой локальный перевод соответствует некоторым теоретическим подходам к моделированию процесса перевода, так, например, для В.Н.Комиссарова единицей перевода является именно предложение (Комиссаров 1990: 188: ср. Bell 1993: 29)
Следовательно, при предварительном редактировании исходного текста необходимо обратить внимание на использование таких заместителей и по возможности заменить их соответствующими знаменательными словами;
2. вследствие особенностей работы со словами, отсутствующими в словарях системы (геоназваниями и именами собственными, фирменными знаками и редкими словами), что приводит к возможным нарушениям в синтаксическом анализе входного предложения. Кроме того, возможны ситуации неправильного опознавания имен собственных как имен нарицательных и, соответственно, их перевода.
При предварительном редактировании следует обратить внимание на использование таких имен и маркировать их так, чтобы не допустить их перевода;
3. вследствие вариативности использования терминов в исходном тексте, что может нарушить унификацию перевода терминологии в рамках одного и того же текста;
При предварительном редактировании следует проанализировать наиболее частотные номинации (используемые термины), окказиональные аббревиатуры, которые могут совпадать в различных терминологических системах и языках для специальных целей, а также способы использования дефисных конструкций
4. вследствие того, что в реальных текстах встречаются очень длинные предложения, а в системах введены ограничения на длину предложения, при которой синтаксическая структура распознается достаточно устойчиво.
Это ограничение может быть снято за счет предварительного редактирования очень длинных предложений;
5. вследствие линейности распознавания устойчивых коллокаций - так называемых машинных оборотов, которые составляют большую часть словарного обеспечения любой системы машинного перевода.
Одним из ограничений, затрудняющих работу переводчика и снижающих результат, получаемый системой машинного перевода, является наличие в тексте предложений, длина которых превышает 50 слов. Такого рода конструкции часто встречаются в научных и технических текстах, однако особенно сложными они являются в текстах гуманитарных.
Опыт показывает, что при средней длине предложения в 12 слов результат МП оптимальный, однако в реальном тексте этот показатель очень часто превышается. Так, средняя длина предложения в газете составляет 22,4 слова, но исследования показывают, что максимальная длина предложения в этом типе текстов может достигать 199 слов. Поэтому одной из функций пользователя, желающего получить результат МП, требующий минимального редактирования, является просмотр текста для упрощения структуры и уменьшения длины самых сложных фрагментов текста. Очень часто такое редактирование позволяет уточнить смысл переводимых фрагментов, которые в техническом тексте также могут иметь очень большую длину.
Предредактирование текста необходимо для установления единства используемой терминологии: неверные результаты перевода часто возникают в результате расхождения между данными, извлекаемыми из текста, и номинацией соответствующих объектов в словаре. Предредактирование должно использоваться для исправления ошибок, допускаемых в глобальном английском языке.
Следует помнить, что при переводе любого вида особым этапом является предпереводческий анализ текста и его предварительное редактирование. Независимо от того, использует ли переводчик в своей работе информационные технологии, переводческая деятельность предполагает этап понимания текста, освоение его содержания. Стратегия освоения содержания текста переводчиком на стадии допереводного анализа текста направлена «снизу вверх»: уровень знаков языка – уровень высказывания – уровень структуры сообщения – уровень описания ситуации – уровень цели коммуникации (Комиссаров 1990; ср. Bell 1991). Перемещение текста из одного языкового пространства в другое требует знание «языка автора», т.е. того, как он описывает конкретный экстралингвистический объект, явление или процесс (Медведовская 2009:41). Подсказкой, средством для выявления этого языка является сам текст, лексическая структура которого является отражением концепта автора.
Даже в случае отсутствия времени на детальное предредактирование, следует помнить, что некоторые преобразования текста, имеющего электронный формат, приводят к его формальному нарушению. Так, например, преобразование текста из формата .pdf в любой из форматов .doc или. rtf приводит к появлению «оборванных» строк, каждая из которых воспринимается системой машинного перевода как отдельное предложение.
Рассмотрим эту ситуацию на примере конкретного предложения в формате .pdf, которое после преобразования в формат .doc выглядит следующим образом::
This paper examines the role that summaries
can play in document retrieval. Thirty
searches are applied to full-text and
summaries only in large document
collections, and the results are evaluated
using two different evaluation scopes.
Перевод этого фрагмента системой машинного перевода оказывается мало понятным:
Эта статья исследует те резюме роли
может играть в информационном поиске. Тридцать
исследования применяются к полному тексту и
резюме только в большом документе
сборники, и результаты оценены
использование двух различных сфер действия определения качества.
В случае приведения исходного текста к стандартному виду получаем текст, который понятен и легко может быть отредактирован:
This paper examines the role that summaries can play in document retrieval. Thirty searches are applied to full-text and summaries only in large document collections, and the results are evaluated using two different evaluation scopes.
è
Эта статья исследует роль которую резюме могут играть в информационном поиске. Тридцать исследований применяются к полному тексту и резюме только в больших сборниках документа, и результаты оценены используя две различных сферы действия определения качества.
Дата добавления: 2015-04-11; просмотров: 27 | Поможем написать вашу работу | Нарушение авторских прав |