Студопедия  
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Корпусы устной речи

Читайте также:
  1. Выровненные и не выровненные параллельные корпусы
  2. ИССЛЕДОВАНИЕ В ОБЛАСТИ УСТНОЙ ИСТОРИИ: МЕТОДИЧЕСКИЕ СОВЕТЫ
  3. Коллективные формы деятельности, направленные на развитие устной речи
  4. Нарушение устной речи.
  5. Описательные информационные модели - это модели, созданные на естественном языке в устной или письменной форме.
  6. Параллельные корпусы
  7. Развитие устной речи
  8. Риторика в устной и письменной коммуникации. Риторические приемы в связях с общественностью.
  9. Сведения, достоверность которых не установлена и которые передаются от человека к человеку посредством устной речи ...

Прагматика не была так тщательно исследована в компьютерной лингвистике и корпусных исследованиях, как некоторые другие сферы лингвистики, поскольку создание репрезентативного корпуса устной речи было сложной задачей. В конце концов, возникла необходимость создать модели вежливости, смены ролей и других явлений [42].

Составители корпуса не всегда могут представить себе все многообразие лингвистических задач, которые могут быть решены с его помощью. Среди них областью особой важности, основной для понимания языка вообще, является исследование устных текстов. Корпус Лондон-Лунд (The London-Lund Corpus) был разработан в рамках проекта «Обзор употребления английского языка» (The Survey of English Usage). Цель проекта заключалась в том, чтобы по возможности полно зафиксировать особенности грамматической системы английского языка в речи взрослого образованного носителя. Проект разрабатывался с 1960 года под руководством Р. Квирка в Лондонском университетском колледже. Объем корпуса – 1 млн. словоупотреблений. Текстами устной речи были записи радиопередач, заседаний официальных структур, а также неформальных бесед. Машинный вариант корпуса создавался в Лундском университете (Швеция) и был готов к использованию в 1979 году. Именно корпус устной речи Лондон-Лунд был одним из первых машиночитаемых корпусов. Он состоял из 34 текстов, представляющих тайно записанные разговоры, которые были также опубликованы в книге Дж. Свартвика и Р. Квирка «Корпус английского разговора» (1980) [59]. Эта книга была очень полезна в то время, когда компьютерные корпусы не были широко распространены, и было трудно обращаться со сложной транскрипцией устной речи [44]. Хотя некоторой частью информации пришлось пожертвовать при составлении машиночитаемой версии, и те, кого записали, вряд ли могут считаться среднестатистическими предствителями лиц, говорящих на английском языке, корпус Лондон-Лунд очень помог в изучении речи. Из-за сложностей составления корпусов устной речи этот корпус долго оставался самым важным источником для компьютерного исследования разговорного английского.

Появление корпуса Лондон-Лунд привело к множеству исследований по лексике, грамматике, просодии речи и особенно по структуре и функционированию дискурса. Так, были исследованы использование слов actually, really, you know, you see, I mean, well, вопросы и ответы в английском разговоре, использование пассива, просодических моделей английского разговора и т.д. Устный и письменный английский изучались в сопоставительных исследованиях на базе корпусов Лондон-Лунд и Ланкастер-Осло-Берген; в частности, изучались модальность, связи в сложных предложениях, отрицание. В настоящее время большой интерес корпусных лингвистов привлекают способы передачи эмоций в устной речи, выражение удивления и т.д. Примером корпуса, позволяющего проводить подобные исследования, является мультимедийный подкорпус в составе НКРЯ.

Отсутствие баланса в доступности устного и письменного материала в машиночитаемом формате продлится еще очень долго. В силу различных причин, построение корпусов устной речи продвигается намного медленнее, чем построение корпусов письменной речи. В первую очередь, устную речь нужно как-то зафиксировать – например, с помощью магнитной ленты, цифровой записи или видеокассеты. Затем ее нужно записать буквами, что является утомительной и дорогой работой, качество которой зависит в большой степени от качества записи и степени шума внешней среды в естественных условиях.

Главная сложность создания фонетических лингвистических ресурсов связана с необходимостью транскрибирования устной речи. При этом возникают следующие проблемы:

1. Какой алгоритм использовать для транскрибирования?

2. Учитывать ли индивидуальные особенности произношения?

3. Учитывать ли весь устный текст или его фрагменты?

4. Учитывать ли диалектные варианты произношения слов?

5. Учитывать ли ударения в словах?

6. Учитывать ли просодические признаки произносимых фраз?

7. Отмечать ли слова, которые при прослушивании не распознавались?

8. Отмечать ли в записи для фонетического корпуса паралингвистические явления, сопутствующие речи (паузы, смех, бормотание, кашель, и т.д.)? [17]

В настоящее время общепринято, что для создания машиночитаемых фонетических корпусов используется транскрипция на ос­нове орфографического представления звуков речи с дополнитель­ными знаками, передающими (при необходимости) просодичес­кие, паралингвистические и другие особенности произношения. Несмотря на трудности создания, в мире уже существует мно­го достаточно представительных фонетических корпусов. Так, как описывается в учебнике А.В. Зубова и И.И. Зубовой, в 70-х годах XX века в США X. Далем и его коллегами был создан «Корпус устной речи американского варианта английского язы­ка». Он включал 1 млн. словоупотреблений, взятых из записей психоаналитических сеансов. С каждой из 15 кассет, имевшихся в распоряжении составителей корпуса, было случайным образом отобрано 225 записей сеансов. Они содержали речь 8 женщин и 21 мужчины из 9 городов США. Отобранные записи были затранс­крибированы на основе стандартной английской орфографии. Диа­лектные варианты произношения не учитывались. Нераспознанные слова при записи обозначались буквой Z. Ударения и другие просо­дические характеристики речи также не учитывались. В то же время при орфографической записи устной речи в качестве специальных комментариев отмечались паузы, смех, вздох, кашель и другие па­ралингвистические явления [17].

Один из членов команды, создавшей Британский на­циональный корпус, Л. Бернард, утверждал, что стоимость отбора 10 млн. слов из устных источников во время создания корпуса (1990-е годы) равнялась стоимости отбора 50 мил­лионов слов из письменных источников [26]. Данные издержки напрямую связаны еще и со строго соблюдаемым в западном мире авторским правом, в связи с чем нельзя провести полноценный анализ устных текстов и опубликовать его результаты без получения согласия их автора, а это не всегда возможно по объективным причинам.

Таким образом, одной из наиболее важных проблем при составлении национальных корпусов текстов является их недостаточное наполнение устными текстами, особенно относящимися к непубличной речи – телефонным разговорам, неформальным беседам и т.д.

 

 




Дата добавления: 2015-05-05; просмотров: 27 | Поможем написать вашу работу | Нарушение авторских прав

Эмпирический подход в сравнении с хомскианской лингвистикой | Междисциплинарная ветвь лингвистики, занимающаяся либо статистическим либо | Классификация корпусов | Выровненные и не выровненные параллельные корпусы |


lektsii.net - Лекции.Нет - 2014-2024 год. (0.007 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав