Студопедия  
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Выровненные и не выровненные параллельные корпусы

Читайте также:
  1. Асинхронные параллельные потоки. Проблематика разработки многопоточных приложений.
  2. Задачи (Task) и Параллельно выполняемые запросы к коллекциям объектов (Parallel). Параллельные (Concurrent-) коллекции.
  3. Как построить минорные гаммы, гармонический минор и как его использовать, что такое параллельные тональности
  4. Корпусы устной речи
  5. Мускул и Эго: параллельные функции
  6. Параллельные корпусы
  7. Параллельные трансакции
  8. Плоскости уровня- это плоскости, параллельные ПП. Плоскость , параллельную П1 , называют горизонтальной, а параллельную П2 – фронтальной.
  9. Становление канона в церковном искусстве. Послекатакомбный период: параллельные процессы становления церковного искусства, догматики, канонов и богослужения.

Параллельные корпусы также могут быть двух типов — выровненные (aligned) и не

выровненные (not aligned). «Выровненность» означает, что в корпусе существует чёткая связь

между единицами перевода, которые соответствуют друг другу. То есть, мы можем быстро

найти, как то или иное слово или предложение переводилось на другой язык. Обычно такими

единицами перевода служат всё-таки предложения, поскольку часто сложно выровнять слова

(ведь обычно переводят не дословно). Такой корпус наиболее полезен для переводчика,

поскольку представляет собой ту самую «память переводов» (translation memory) — бесценный

ресурс, позволяющий использовать предыдущие переводы.

 

Невыровненные корпусы ещё называют «сравнительными».

«Выровнять текст с его переводом на другой язык означает показать какие части

текста переведены какими частями второго текста» (Kay & Rцscheisen 1993: 121)

 

Выравнивание (alignment) можно делать автоматически, а можно вручную. Первый

способ быстрее, но чреват ошибками. Например, если при переводе произошло членение или

объединение предложений, то не всегда можно легко определить, какое из предложений

перевода соответствует какому предложению оригинала.

 

Одним из примеров выровненного многоязычного корпуса может послужить база

данных Acquis Communautaire Европейского Союза (DGT-TM). Это память переводов

европейского законодательства на 22 языках, которую выложили в открытый доступ в ноябре 2007 года. Всего в ней около миллиарда слов, она выровнена по предложениям (sentencealigned).

 

Вот пример предложения из этой базы данных:

EN: Articles 5 to 7 of this Directive do not apply to containers for gases which are compressed, liquefied or

dissolved under pressure.

BG: Членове 5 - 7 на настоящата директива не се отнасят за контейнери с газове, които са

сгъстени, втечнени или разтворени под налягане.

CS: Člбnky 5 až 7 tйto směrnice se nevztahujн na kontejnery pro plyny, kterй jsou stlačenй, zkapalněnй nebo

rozpuštěnй pod tlakem.

 

Ценность параллельного корпуса, как и других корпусов, возрастает с его размером и

количеством языков. В этой связи трудно переоценить важность Acquis Communautaire,

который является самым большим параллельным корпусом в мире. Ещё два его преимущества — бесплатность и наличие редких пар языков, типа «мальтийский-эстонский», «словенский-греческий».

 

Этот и подобные корпусы можно использовать для многих целей. Например:

● выявление типичных переводческих приёмов и трансформаций

обучение статистических систем автоматического перевода

● создание одноязычных и многоязычных словарей

● обучение и тестирование программ извлечения информации

● автоматическая проверка правильности перевода

● подбор возможных эквивалентов

 

Двуязычные корпусы — ещё одно благодатное поле для студентов-лингвистов, инструмент для получения языковых данных.

 

По критерию «литературности» выделяются литературные, диалектные, разговорные, терминологические и смешанные корпусы. Примером разговорного корпуса может быть корпус Один Речевой День (ОРД), разрабатываемый в Санкт-Петербурге [38], примером терминологического корпуса – корпус текстов по корпусной лингвистике, позволяющий разрабатывать терминологический словарь непосредственно на живом текстовом материале [54]. В этом корпусе методология корпусной лингвистики применена к ней самой.

 

По цели создания корпусы делятся на многоцелевые и специализированные. Многоцелевые корпусы обычно содержат тексты различных жанров (сюда относятся национальные корпусы), в то время как специализированные корпусы могут ограничиваться одним жанром или группой жанров.

 

Корпусы текстов могут быть классифицированы по жанрам и подразделяться на литературные, фольклорные, драматургические, публицистические и др. Примерами публицистического корпуса могут служить Компьютерный корпус текстов русских газет конца ХХ-ого века (http://www.philol.msu.ru/~lex/corpus/) и корпус политических метафор [2].

 

Важным критерием для пользователей корпуса является его доступность. Свободно доступные корпусы позволяют в любое время в режиме on-line иметь доступ ко всем текстам корпуса в полном объеме. В ряде случаев свободный доступ может предоставляться к части корпусных данных. В работе с коммерческими корпусами нужно покупать право его использования on-line или копию на компакт-диске. Предварительно можно ознакомиться с аннотацией к корпусу или, возможно, даже поработать с корпусом в пробном режиме, но, как правило, не со всеми текстами, а только с небольшим по объему подкорпусом. Закрытые корпусы создаются для узко специфических целей и не предназначены для публичного использования.

 

Статические – динамические

Первые корпусы были статичными снимками языка. Наиболее значимый современный

корпус (BNC) тоже статичен. Но начали появляться и динамические мониторинговые корпуса,

которые пополняются постоянно. Пример — Cobuild Project. Такие корпусы ещё называются

«открытые». Их проблема в том, что они часто не совсем адекватно представляют язык,

поскольку не подчиняются чётким критериям отбора, тексты не сбалансированы.

 

Критерий «динамичность» подразделяет корпусы на динамические и статические. Первоначально корпусы текстов создавались как статические образования, отражающие опреде­ленное временнóе состояние языковой системы. Статические корпусы содержат тексты какого-то небольшого вре­меннóго промежутка [17]. Типичными представи­телями этого вида корпусов являются авторские корпусы – коллекции текстов писателей.

 

Однако значительная часть чисто лингвистических и не только лингвистических задач требует выявления функционирования языковых феноменов на временнóй шкале – например, изменения значе­ния слов, частоты использования тех или иных синтаксических конструк­ций и т.д. Для отражения процессуального аспекта проблемной области была разработана новая технология построения и эксплуатации динами­ческого корпуса текстов [2]. Динамические корпусы называют также мониторными или мониторинговыми. Цель мониторных корпусов – «складировать» постоянно растущее количество текстов в памяти компьютера. В течение заранее фиксированного промежутка време­ни происходит обновление и/или дополнение множества текстов корпуса. Неограниченные (постоянно развивающиеся) мониторные корпусы играют огромную роль в строении словаря, поскольку позволяют лексикографам следить за новыми словами, проникающими в язык, или за уже существующими словами, меняющими свое значение, а также за балансом их употребления в соответствии со стилем. В динамические корпусы текстов, как правило, включают письменные ис­точники большого временнóго периода. Они предназначены для проведения различных диахронических исследований [17].

В размеченном корпусе словам или предложениям присваиваются метки (тэги) в соответствии с характером разметки: морфологические, синтаксические, семантические, просодические и др.

По назначению выделяют исследовательские и иллюстративные корпусы. Исследовательские корпусы создаются с целью изучения различ­ных аспектов функционирования языка. Этот тип корпусов ориентирован на широкий класс лингвистических задач. Неспецифицированность за­дачи требует при построении исследовательских корпусов использовать пропорциональное сужение, являющееся наиболее простым способом обеспечения репрезентативности. Как правило, такие кор­пусы текстов содержат от нескольких десятков миллионов до сотен миллионов словоупо­треблений. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты.

По критерию«объем текстов» выделяют полнотекстовые и так называемые фрагментотекстовые корпусы. Как известно, Брауновский корпус и корпус Ланкастер-Осло-Берген должны были строго соответствовать определенным критериям, одним из которых была длина текста, равная 2000 слов (словоупотреблений). Очевидно, что текстов, строго соответствующих таким критериям, практически нет. Следовательно, эти корпусы являются фрагментотекстовыми. К полнотекстовым корпусам относятся некоторые корпусы текстов определенного автора, а также корпусы коротких текстов, например, корпус мерфизмов (так называемых «законов подлости») [5] или корпус газетных заголовков.

 




Дата добавления: 2015-05-05; просмотров: 17 | Поможем написать вашу работу | Нарушение авторских прав

Эмпирический подход в сравнении с хомскианской лингвистикой | Междисциплинарная ветвь лингвистики, занимающаяся либо статистическим либо | Корпусы устной речи |


lektsii.net - Лекции.Нет - 2014-2024 год. (0.008 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав