Приближение разной вероятности встречаемости символов в тексте

Читайте также:

Базовая идея алгоритма кодирования Хаффмена для двоичных кодов заключается в том, чтобы начинать с малого количества символов и переходить к большим количествам символов.
Базовый Основной Иностранный Язык в контексте межкультурной коммуникации
Баховская система символов
Бимо в контексте современного времени
Биология в контексте философии и методологии современной науки. Биофилософия.
Бланковые, опросные, рисуночные и проективные психодиагностические методики. Сущность и частота встречаемости. Понятие об объективно-манипуляционных методиках
В КОНТЕКСТЕ ПАЛОМНИЧЕСКОЙ ЛИТЕРАТУРЫ
В официальном тексте документа, видимо, допущена опечатка: Постановление Правительства РФ N 438 издано 19.06.2002, а не 16.06.2002. 1 страница
В официальном тексте документа, видимо, допущена опечатка: Постановление Правительства РФ N 438 издано 19.06.2002, а не 16.06.2002. 2 страница
В официальном тексте документа, видимо, допущена опечатка: Постановление Правительства РФ N 438 издано 19.06.2002, а не 16.06.2002. 3 страница

В этом приближении учитывается, что в реальном тексте разные символы встречаются с разной частотой. Отсюда следует, что вероятности появления разных символов в определенной позиции текста различны и, следовательно, различаются их информационные веса.

Статистический анализ русских текстов показывает, что частота появления буквы “о” составляет 0,09. Это значит, что на каждые 100 символов буква “о” в среднем встречается 9 раз. Это же число обозначает вероятность появления буквы “о” в определенной позиции текста: p _o = 0,09. Отсюда следует, что информационный вес буквы “о” в русском тексте равен:

Самой редкой в текстах буквой является буква “ф”. Ее частота равна 0,002. Отсюда:

Отсюда следует качественный вывод: информационный вес редких букв больше, чем вес часто встречающихся букв.

Информационный объем текста с учетом разных информационных весов символов алфавита вычисляется по следующей формуле:

Здесь N — размер (мощность) алфавита; n_j — число повторений символа номер j в тексте; i_j — информационный вес символа номер j.

Дата добавления: 2014-12-19; просмотров: 90 | Поможем написать вашу работу | Нарушение авторских прав

123

lektsii.net - Лекции.Нет - 2014-2025 год. (0.006 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав