Кодирование текстовой информации.

Читайте также:

Если каждому символу алфавита сопоставить определённое целое число (например, порядковый номер),то с помощью двоичного кода можно закодировать и текстовую информацию. Восьми двоичных разрядов достаточно для кодирования 256 различных символов. Этого хватит, чтобы выразить различными комбинациями восьми битов все буквы английского и русского языков, как строчные, так и прописные, а также знаки препинания, символы арифметических действий и некоторые общепринятые символы (@, #, &, l).

Технически это выглядит очень просто, однако всегда существовали достаточно веские организационные трудности. В первые годы развития вычислительной техники они были связаны с отсутствием необходимых стандартов, а в настоящее время вызваны, наоборот, изобилием одновременно действующих и противоречивых стандартов. Для того, чтобы весь мир одинаково кодировал текстовые данные, нужны единые таблицы кодирования, а это пока невозможно из-за противоречий между символами национальных алфавитов, а также противоречий корпоративного характера.

Для английского языка противоречия уже сняты. Институт стандартизации США (ANSI – American National Standart Institute) ввёл в действие систему кодирования ASCII (American Standart Code for Information Interchange – стандартный код информационного обмена США). В системе ASCII закреплены таблицы кодирования – базовая и расширенная. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255). Первые 32 кода базовой таблицы, начиная с нулевого, отданы производителям аппаратных средств (в первую очередь производителям компьютеров и печатающих устройств). В этой области размещаются так называемые управляющие коды, которым не соответствуют никакие символы языков, и, соответственно, эти коды не выводятся на экран и устройства печати, но ими можно управлять тем, как производится вывод прочих данных. Начиная с кода 32 по код 127 размещены символы английского языка, знаков препинания, цифр, арифметических действий и некоторых вспомогательных символов.

Аналогичные системы кодирования текстовых данных были разработаны и в других странах. Так, например, В СССР действовала система кодирования КОИ-7 (код обмена информацией, семизначный). Однако поддержка производителей оборудования и программ вывела американский код ASCII на уровень международного стандарта, и национальным системам кодирования пришлось «отступить» во вторую, расширенную часть системы кодирования, определяющую значения кодов со 128 по 255. Отсутствие единого стандарта в этой области привело к множественности одновременно действующих кодировок. Только в России можно указать три действующих стандарта кодировки и ещё два устаревших.

Так, например, кодировка символов русского языка, известная как Windows-1251, была введена «извне» - компанией Micrоsoft, но, учитывая широкое распространение операционных систем и других продуктов этой компании в России, она глубоко закрепилась и нашла широкое распространение. Эта кодировка используется на большинстве локальных компьютерах, работающих на платформе Windows.

Другая распространённая кодировка носит название КОИ-8 (код обмена информацией, восьмизначный) – её происхождение относится ко временам действия Совета Экономической Взаимопомощи государств Восточной Европы. Сегодня кодировка КОИ-8 имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернете.

Международный стандарт, в котором предусмотрена кодировка символов русского алфавита, носит название ISO (Internation Standart Organizatiоn – Международный институт стандартизации). А на практике данная кодировка используется редко.

Универсальная система кодирования текстовых данных.

Если проанализировать организационные трудности, связанные с созданием единой системы кодирования текстовых данных, то можно придти к выводу, что они связаны с ограниченным набором кодов (256). В то же время очевидно, что если, например, кодировать символы не 8-разрядными двоичными числами, а числами с большим количеством разрядов, то и диапазон возможных значений кодов станет намного больше. Такая система, основанная на 16-разрядном кодировании символов, получила название универсальной – UNICODЕ. 16 разрядов позволяют обеспечить уникальные коды для 65536 различных символов – этого достаточно для размеения в одной таблице символов большинства языков планеты.

Обратите внимание!!! Цифры кодируются по стандарту ASCII в двух случаях – при вводе-выводе и когда они встречаются в тексте. Если цифры участвуют в вычислениях, то осуществляется из преобразование в другой двоичный код.

Дата добавления: 2014-11-24; просмотров: 37 | Поможем написать вашу работу | Нарушение авторских прав

Предыдущая 1 2 345 6 7 8 9 10 11 12 13 Следующая

lektsii.net - Лекции.Нет - 2014-2024 год. (0.005 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав