Параллельные корпусы

Читайте также:

Асинхронные параллельные потоки. Проблематика разработки многопоточных приложений.
Выровненные и не выровненные параллельные корпусы
Задачи (Task) и Параллельно выполняемые запросы к коллекциям объектов (Parallel). Параллельные (Concurrent-) коллекции.
Как построить минорные гаммы, гармонический минор и как его использовать, что такое параллельные тональности
Корпусы устной речи
Мускул и Эго: параллельные функции
Параллельные трансакции
Плоскости уровня- это плоскости, параллельные ПП. Плоскость , параллельную П1 , называют горизонтальной, а параллельную П2 – фронтальной.
Становление канона в церковном искусстве. Послекатакомбный период: параллельные процессы становления церковного искусства, догматики, канонов и богослужения.

Параллельные корпусы можно разделить на два основных типа:

1) корпусы, представляющие множество текстов- оригиналов, написанных на каком-либо исходном языке, и текстов- переводов этих исходных текстов на один или несколько других языков;

2) корпусы, объединяющие тексты из одной и той же тематической области, независимо написанные на двух или нескольких языках.

И те, и другие корпусы создаются и используются для сравнительных исследований языков (в области лексикологии, грамматики, стилистики, переводоведения и т.д.), а также в целях разработки эффективных методов перевода, в том числе, машинного.

При подготовке параллельных корпусов текстов первого типа и разработке пакетов программ для их обработки возникает проблема, которая заключается в установлении соответствий между текстом оригинала и его переводами [2]. Для решения этой задачи используется так называемый метод автоматического выравнивания (alignment) текстов. Суть этого метода заключается в параллельной сегментации оригинального текста и его перевода по предложениям, клаузам (грамматическим конструкциям), словосочетаниям и словам. При выравнивании на уровне предложений могут использоваться, как это описано в учебнике А.В. Зубова и И.И. Зубовой [17], шесть возможных соответствий между предложениями обоих текстов.

1) одно исходное предложение переводится одним предложением;

2) два исходных предложения переводятся одним предложением;

3) одно исходное предложение переводится двумя предложениями;

4) два исходных предложения переводятся двумя предложениями, но внутренние границы этих предложений в тексте оригинала и тексте перевода не совпадают;

5) предложение исходного текста не переводится;

6) предложение в тексте перевода не имеет эквивалента в тексте оригинала.

Теоретически обоснованным при решении данной проблемы может быть использование технологий систем машинного перевода с языком-посредником или универсальным языком [2].

На практике существуют различные программы выравнивания, которые автоматически сопоставляют тексты на основе совпадения относительных длин предложений, разделения текста на абзацы, анализа знаков препинания, внешнего словаря и других факторов. Чаще всего эти программы используются в человеко-машинном варианте, с постредактированием результатов автоматического выравнивания.

Параллельные корпусы текстов позволяют получить большой объем информации. С их помощью можно:

· строить двуязычные и многоязычные переводные словари;

· создавать и пополнять словари для систем машинного перевода;

· устранять полисемию лексических единиц путем использования компьютером контекстного окружения многозначного слова, превышающего по длине предложение;

· переводить терминологические и фразеологические единицы текста;

· осуществлять полностью автоматический перевод в рамках новых систем машинного перевода, называемых системами с переводческой памятью, путем накопления в памяти компьютера корпусов исходных текстов и их переводов, выровненных между собой на различных уровнях.

В процессе перевода такая система пытается отыскать переводимое предложение или его фрагмент в массиве исходных параллельных текстов. Если оно найдено в исходном массиве текстов-оригиналов, то система выбирает перевод такого предложения или его части в массиве переведенных текстов [17].

При исследовании параллельных корпусов, в том числе корпусов второго типа, могут успешно применяться инструменты автоматической классификации лексики. Автоматическая классификация лексики является одной из ключевых процедур автоматического понимания текстов [4]. Она осуществляется в рамках формализации структуры текста и количественной оценки семантических связей между элементами текста (словами, представленными леммами и словоформами). Сравнительный анализ количественных данных об употреблении слов, о степени их семантической близости помогает устанавливать распределение лексических единиц разных языков внутри лексико-семантических и тематических групп. Информация о соотношении элементов кластеров, полученная при параллельной обработке текстов оригинала и перевода в параллельных корпусах второго типа, имеет высокую ценность в определении адекватности перевода и при проведении контрастивных исследований. Применение модулей автоматической классификации лексики повышает эффективность поиска в параллельных корпусах, позволяет извлекать данные для пополнения и корректировки многоязычных словарей, для проверки качества работы систем машинного перевода и их обучения [25; 7].

Система автоматического перевода текста может быть основана на расширенных морфологических союзах между двумя языками с использованием простых правил для выбора подходящих грамматических пар. Например, в параллельном русско-словацком корпусе текстов снятие семантической и морфологической омонимии проводится с применением цепи Маркова первого или второго порядка, которая тренирована на большом одноязычном корпусе. Генетические сходства между лексическими системами русского и словацкого языков можно использовать также для увеличения качества перевода при помощи схемы транслитерации отсутствующих в словаре слов.

Системы переводческой памяти могут быть использованы творчески для большей автоматизации переводческого процесса, не зависящей от конкретных языков. Система машинного перевода основывается на применении синтаксического сходства между более или менее родственными естественными языками. В частности, это касается таких языков, как чешский и словацкий.

Параллельные корпусы часто создаются на основе текстов, используемых в многоязычных сообществах, таких как Организация Объединенных Наций, в странах Европейского Союза и в официально двуязычных странах, таких как Канада.

Дата добавления: 2015-05-05; просмотров: 28 | Поможем написать вашу работу | Нарушение авторских прав

Эмпирический подход в сравнении с хомскианской лингвистикой | Междисциплинарная ветвь лингвистики, занимающаяся либо статистическим либо | Классификация корпусов |

lektsii.net - Лекции.Нет - 2014-2024 год. (0.007 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав