Студопедия  
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Обработка эмпирической информации.

Читайте также:
  1. B) обработка строк.
  2. E. обработка операционного поля
  3. Б) Обработка туш свиней
  4. Балансовый метод обобщения информации.
  5. Блог) 4.Технология организации маршрута (пути) к файлу (папке) в файловой системе компьютера. Имена устройств чтения и записи информации.
  6. В файлах данных можно хранить большие объемы информации.
  7. Ветеринарно-санитарная обработка молочного оборудования
  8. Ветеринарно-санитарная экспертиза туш и органов животных при отравлениях и обработках химическими веществами
  9. Виды и свойства информации.
  10. Вопрос 1. Информация и информатика. Единицы измерения информации. Кодирование информации. Двоичное, восьмеричное и двоично-десятичное кодирование.

Эмпирической информацией для лингвиста является текст, либо другие исходные данные "изображение структуры текста", "алфавит символов и правила образования и преобразования фраз".[6]

 

Текст (письменный и устный) - первичная данность всего гуманитарно-филологического мышления.[7],[8]

Текст может быть представлен в виде:

книги,

журнального текста

электронного (оцифрованного) текста.

 

Предварительным этапом анализа является нормализация текста (графематический анализ), приводящий исходный текст к каноническому виду. Являясь определенного рода текстовым препроцессором, графематический анализатор решает следующие задачи: удаление нетекстовых символов, разделение цепочки символов на слова, выделение цифр, чисел, дат, неизменяемых оборотов и сокращений, деление на предложения и абзацы. Результатом анализа является линейная последовательность слов, включая служебные (знаки препинания, метки конца предложения).

 

Полученная в ходе предварительного отбора информация называется первичной. Она не позволяет установить те зависимости, которые кладутся в основу лингвистических выводов.

 

Поэтому эта информация нуждается в трансформировании во вторичную информацию - эта информация может быть представленную в виде каких либо показателей или даже таблиц и графиков.

 

Для использования информационных технологий желательно печатный текст перевести в цифровой формат.

 

После этого возможно провести 'Графематический анализ. При этом возможно использование компьютерных программ [9].

 

Графематический анализ (далее графематика) - достаточно простая программа, выполняющая первые предварительные действия над текстом. На вход графематике подается текст в кодировке (например Windows,) на выходе программой строится графематическая таблица, в которой на каждой строке стоит слово или разделитель из входного текста. Программа выделяет некоторые аббревиатуры, имена с инициалами, даты и пр. Кроме деления текста на слова, графематика разбивает текст на абзацы и предложения (макросинтаксический анализ).

 

Графематическая таблица состоит из двух столбцов. В первом столбце стоит некоторый кусок входного текста (выделенный по правилам, о которых мы скажем ниже), во втором столбце стоят графематические дескрипторы, характеризующие этот кусок текста. Например, для текста "Иван спал" будет построена таблица из трех строкКусок входного текста Графематические дескрипторы

Иван ЛЕ Бб ПРД1

- РЗД ПРБ

спал ЛЕ бб ПРД2

 

Дополнительный материал.

Вторичная обработка первичной эмпирической информации.[править]

 


Дата добавления: 2015-04-20; просмотров: 6 | Нарушение авторских прав

1 | 2 | <== 3 ==> | 4 | 5 | 6 | 7 |


lektsii.net - Лекции.Нет - 2014-2021 год. (0.006 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав