Студопедия  
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Показатели информационного обслуживания, применяемые в ГПНТБ России 6 страница

Оценивать ИР как имущество целесообразно и тогда, когда гаран­тирована их такая специфическая реализация, как включение в устав­ный фонд в качестве учредительного капитала или реализация ИР пол­ностью, например, при приватизации, реорганизации, ликвидации или продаже предприятия, а также их использование в качестве залога для страхования.

Наличие не используемых и не приносящих дохода ГИР (в том чис­ле во внутренней деятельности предприятия) не должно сказываться на результатах финансово-хозяйственной деятельности; они должны быть заархивированы и в целесообразных объемах списаны. Но эти операции, как и государственная регистрация ГИР, обязаны всегда на­ходить отражение в Государственном реестре ГИР по НТИ.

Амортизация ГИР по НТИ. Амортизация ИР в составе нематери­альных активов (внеоборотные активы) происходит за счет хозяйст­венной деятельности в целом. Амортизация ИР за счет конкретных ИПУ делает цены на эти услуги неприемлемо высокими. Срок аморти­зации ИР в целом непредсказуем. Обычно, к ним применяется период в 10 лет, поэтому учитываемые в составе нематериальных активов ча­сти ГИР амортизируются в основном в размере 10 % в год от их стои­мости.

В то же время практически постоянно требуется актуализация ИР, а значит, необходимы дополнительные средства на их ведение. Частич­но эти средства можно покрыть амортизационными отчислениями, но только в части ликвидных ИП. Иногда в зависимости от стоимости и объемов предполагаемых продаж ИП можно реализовывать не только как нематериальные активы, но и как готовую продукцию в составе оборотных активов, стоимость которых также будет содержать амор­тизационные отчисления соответствующих частей ГИР (адресная амортизация).

Полная амортизация всех ИР предприятия проблематична и неце­лесообразна, так как заметная их часть подлежит списанию или пере­даче в архив, и потому не требуется их поименное восстановление. Са­мофинансирование создания и развития государственных ИР НТИ за счет только их реализации невозможно, так как они создаются не для коммерческих целей и в своей совокупности не могут быть рентабель­ными рыночными продуктами.

 

БАЗОВЫЕ ТЕХНОЛОГИИ ФОРМИРОВАНИЯ И ПРЕДСТАВЛЕНИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ

7.1. МОДЕЛИ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ

Современные информационные системы способны хранить, рас­пространять и обрабатывать любую информацию, которая может быть представлена в цифровой форме. В главе 2 были представлены неко­торые известные классификации информационных (цифровых) объек­тов. Однако единой классификации их типов не существует. Развитие представлений о типах этих объектов происходило по-разному в раз­личных направлениях информатики.

Наиболее общим и распространенным способом разделения ин­формационных объектов, представленных в обычном письменном ви­де, можно считать выделение хорошо структурированной информа­ции, иногда называемой данными, и плохо структурированной, куда обычно относят текстовую.

Самостоятельным типом, до последних лет развивавшимся практи­чески независимо, является различная мультимедийная информация: аудио, графическая, цифровые фильмы и другие движущиеся изобра­жения.

Однако среди графических объектов особое место заняли, с одной стороны, географические карты, часто называемые геоданными, с другой — чертежи и различные модели трехмерных физических объек­тов, с третьей — интерактивные графические объекты — виртуальная реальность. Специальным, но очень важным видом последних являют­ся также движущиеся объекты — анимация.

В некоторых публикациях, а также в ряде стандартов выделяются и другие типы информационных объектов, например темпоральные (су­ществующие или изменяющиеся во времени), программные средства, информационные услуги и др.

Таким образом, количество типов информационных объектов и принципы их выделения являются на сегодняшний день нерешенной проблемой информатики. В рамках различных стандартов, применяю­щихся в тех или иных технологиях, например в электронной почте или вебе, имеются те или иные способы указания типов объектов, а также форматов их представления. Мощная тенденция к интероперабельно-сти различных информационных технологий, проявляющаяся в по­следние годы по мере распространения Интернета, позволяет надеяться на унификацию этих подходов. Примерами являются идеология и технологии электронных библиотек, направленные на использова­ние разнородных информационных объектов.

Далее будут рассмотрены наиболее распространенные виды ин­формационных объектов, которые формируются на основе обычной письменной коммуникации. Их мы определяем как тип "данные" и тип "текст".

7.2. МОДЕЛИ ДАННЫХ

Понятие "модели данных" и основанные на нем теоретические и практические решения определили развитие той области информати­ки, которая получила название "Теория и технология баз данных". Этот класс технологий ведет свое начало с 1960-х гг. от задач обработки экономической информации и языка программирования КОБОЛ. По­дробно история и теория технологий баз данных изложены в фунда­ментальной работе [29]. Здесь мы опишем только основные определе­ния и ведущие направления данного класса технологий.

Появление понятия "базы данных" связано с идеей отделения дан­ных от программ, их использующих.

Моделью данных называется система типов данных, типов связей между ними и допустимых ограничений целостности, которым они

должны удовлетворять.

Наиболее заметным событием первого периода развития баз дан­ных были появившиеся в 1960-х гг. сетевая модель данных КОДАСИЛ и иерархическая модель данных компании IBM. Эти модели могут быть представлены в виде графа общего вида, где вершинами являются данные (от атомарных элементов данных до записей сложной структу­ры), а дуги графа представляют собой связи между этими данными. На моделях был построен большой класс коммерческих систем управле­ния базами данных. Фактически эти идеи доминировали в практике банков данных в течение 15—20 лет.

Второй этап развития теории баз данных был связан с появлением знаменитой работы Кодда по базовой реляционной модели. Она осно­вана на понятии отношения и представления отношений в виде таб­лиц. Позже появилась расширенная реляционная модель данных.

На основе базовой, а потом и расширенной реляционной модели появились реляционные СУБД, которые быстро распространились на различные платформы и различные приложения. Это произошло бла­годаря простоте и естественности структуры данных, их независимос­ти от среды хранения, поддержке виртуальных, а не физических свя­зей между данными на основе значений их самих, а не указателей.

Одним из важнейшим этапов в развитии реляционной теории было по­явление в 1986 г. стандарта реляционного языка данных на основе разра­ботанного IBM языка SQL. К началу 1990-х гг. реляционные СУБД стали со­ставлять доминирующую долю установок СУБД на всех мыслимых плат­формах и приложениях. Это положение сохраняется и сейчас.

Несмотря на большие возможности реляционной модели, было яс но, что она не может служить универсальной на все случаи жизни впрочем, как и любая другая. Основным достижением следующего пе риода стала появление объектной модели данных. Главным в этой мо дели является понятие объекта, т. е. сущности, обладающей состояни­ем и поведением. Состояние объекта определяется совокупностью его атрибутов, а поведение — совокупностью допустимых операций. Различаются типы объектов с заранее определенными свойствами и со свойствами, определяемыми пользователями. Для объектных (или объектно-ориентированных) баз данных основным стандартом стал CORBA. Архитектура CORBA позволяла решать важную проблему — использовать информационные ресурсы унаследованных систем. Она также обеспечивала возможность интеграции или взаимодействия различных систем, в том числе систем автоматизации программиро­вания, хранилищ данных, объектных баз данных. Для этой цели пона­добилась разработка стандартов на метаданные.

Параллельно появились модели данных, ориентированные на но­вые модели трансакций, новые методы доступа. Они реализовывались для таких приложений, как САПР, географические информационные системы, мобильные системы баз данных, а также пространственно-временные БД. Возникла также концепция расширяемых СУБД, позво­ляющих использовать нетрадиционные типы данных, сложные структу­ры данных и удовлетворять другим дополнительным требованиям для новых приложений.

Кроме того, началась активная работа по интеграции объектного и реляционного подходов, приведшая к появлению объектно-реляцион­ной модели данных. Эта модель была зафиксирована новым стандар­том SQL-1999.

Наиболее значимым событием 1990-х гг. в области информационных технологий стало, без сомнения, создание Всемирной паутины (веба) — открытой глобальной распределенной неоднородной гипермедийной информационно-коммуникационной среды (или, если угодно, систе­мы). Основной моделью данных веба стала модель расширяемого язы­ка разметки XML. Подробнее этот язык будет рассмотрен ниже. Здесь укажем лишь, что он позволяет явно описывать структуру и семантику документов и данных различных типов, обеспечивая тем самым возмож­ности интеграции информационных ресурсов веба и баз данных. Разра­батываемые способы их взаимодействия разнообразны. Решение этих задач началось в последние годы и происходит очень интенсивно.

 

7.3. ТЕКСТОВЫЕ ДОКУМЕНТЫ КАК ЦИФРОВЫЕ ОБЪЕКТЫ

Для представления текстов в электронном виде возможны два спо­соба: в виде графического изображения (образа) или посимвольное кодирование.

Каждый способ имеет свои достоинства и недостатки. Кодирование дает возможность посимвольной обработки текстов и, следова­тельно, разнообразных вариантов работы с ними (поиск, редактирова­ние, экспорт, импорт и т. д.).

Представление в виде графического образа таких возможностей не дает, но зато позволяет сохранить индивидуальные особенности текс­та или обеспечивает достоверность электронного представления по сравнению с печатным оригиналом. Поэтому оцифровка древних руко­писей, особо ценных документов или текстов, к достоверности кото­рых предъявляются особые требования, осуществляется в виде гра­фических образов.

Кроме того, перевод текста из бумажного варианта в электронный в символьном виде значительно дороже, поскольку сначала осуществ­ляется сканирование с переводом в электронную форму в виде графи­ческого образа, а затем уже распознавание знаков текста при помощи программ оптического распознавания символов (OCR). Программы OCR работают не идеально, допуская определенное количество оши­бок, поэтому для качественной подготовки текста обычно требуется еще и ручная корректура. Количество ошибок при работе программ OCR зависит от качества текста. Хороший четкий текст позволяет сни­зить число ошибок до 1 % и даже меньше. В то же время, например, при оцифровке старых геологических отчетов количество ошибок до­стигало 50 %. Альтернативой технологии сканирование — распознава­ние—корректура является технология ручного ввода (перепечатка) текста, которая во многих случаях оказывается дешевле.

К тому же представление текста в виде образа требует очень много машинной памяти для хранения, особенно при использовании скани­рования с высоким разрешением. При попытке достичь качества, со­поставимого с художественной фотографией, возникают гигантские файлы, достигающие 1 Гб на один рисунок. Но даже обычная страница черно-белого текста требует в 50—100 раз больше места, чем тот же текст в символьном виде.

При выборе способа электронного представления текста (графиче­ского или символьного) нужно также иметь в виду, что многие докумен­ты (включая полиграфические издания) в настоящее время готовятся в электронном виде (причем тексты всегда в символьных форматах), по­этому их ввод в информационную систему часто не требует дополни­тельных преобразований.

7.4. КОДИРОВКИ СИМВОЛОВ

Базовыми элементами текста являются символы или знаки алфави­тов естественных языков или искусственных формальных систем, та­ких, как математическая, химическая или музыкальная нотация. Знак представляет собой абстрактное понятие, которое может иметь мно­жество различных материальных воплощений, например изображений в разных шрифтах.

В ходе компьютерной эволюции шло активное развитие систем ко­дирования символов, начиная с примитивной, предназначенной для вывода текстов на АЦПУ, в которой различалось всего 64 символа, до системы UNICODE, которая поддерживает почти 39 тыс. различных практически на всех языках мира, использующих алфавиты.

Большая часть современных компьютеров основана на поддержке кодировки ASCII. Эта кодировка имеет две разновидности: 7-битный и 8-битный коды.

7-битный стандартный код поддерживает 128 знаков: 96 печатных и 32 служебных. Эти 96 знаков используются почти во всех устройствах, во многих программах и электронной почте.

Существует расширенная 8-битная кодировка ASCII, в которой 256 различных знаков, в том числе символы кириллицы. В России, естест­венно, она пользуется особой популярностью.

Однако наиболее мощной современной системой кодировки явля­ется UNICODE, использующая 16-битные коды. Она позволяет пред­ставлять письменности всех современных языков, кроме иероглифи­ческих, а также математические, технические и другие символы.

При помощи специальных средств коды UNICODE совместимы с кодировками ASCII, что способствует широкому распространению UNICODE.

Кроме UNICODE можно применять транслитерацию, когда знаки од­ного языка передаются при помощи знаков или комбинации знаков другого. Пока транслитерация сохраняет свое значение для представ­ления знаков некоторых языков, например китайского, которые не поддерживаются UNICODE.

Кроме того, транслитерация применяется в ряде случаев, когда правилами орфографии предписано использовать только определен­ные алфавиты. Например, в России транслитерацию на кириллицу не­обходимо использовать при передаче собственных имен, при состав­лении библиографического описания и др.

 

7.5. ОФОРМЛЕНИЕ ТЕКСТОВ И СТИЛИ

Кроме кодировки символов при электронном представлении текста возникают разнообразные проблемы представления различных эле­ментов полиграфического оформления текста, имеющегося в исходном документе. Это рисунок (гарнитура) и размер шрифта, различные шрифтовые выделения, расположение текста на строке и странице, па­гинация и другие элементы. Самым сложным считается наличие в текс­те различных нелинейностей, когда символы располагаются выше или ниже строки, а также в несколько этажей, как математические формулы.

При компьютерном вводе текста для полиграфического оформле­ния используются таблицы стилей и другие средства текстовых редак­торов. Далеко не все программы позволяют применять таблицы сти­лей. При организации текста для поиска, передачи другим приложени­ям возникает проблема выбора средств.

При сканировании и распознавании текстов, использующих раз­личные особенности, например нелинейности, возникает задача отде­ления значимых элементов оформления текста от несущественных. Дело в том, что сохранение в электронном варианте некоторых тексто­вых особенностей документа, которые потом нужно представить на эк­ране или при выдаче на печать (визуализировать), стоит довольно до­рого. Очевидно, что такие затраты должны быть обоснованны. Поэто­му многие электронные публикаторы, особенно любители, которые часто представляют в Интернете различные документы, считают из­лишним тратить время и силы на сохранение и воспроизведение раз­личных текстовых особенностей. Возьмем, к примеру, ссылки на древ­негреческие или арамейские тексты, в изобилии имеющиеся в религи­озных книгах, или математические формулы, включаемые в научные монографии. Многие публикаторы эти ссылки транслитерируют или исключают, формулы линеаризуют, вместо того чтобы оформлять их как рисунки. Свои ограничения имеют и средства визуализации в Ин­тернете, такие, как стандартные браузеры.

В то же время электронные издания, претендующие на научную до­стоверность, используют более совершенные и дорогие средства. Так в Интернете возникает разное представление одних и тех же докумен­тов, что существенно препятствует формированию единого информа­ционного пространства.

7.6. ЯЗЫКИ РАЗМЕТКИ

Выше было сказано, что основой для представления информации (документа) в электронном издании и электронной библиотеке являет­ся разметка текста при помощи специализированных языков. Приво­дим историю развития и краткое описание основных типов языков раз­метки, без ссылок на литературу, поскольку подобное описание имеет­ся в любой книге, посвященной Интернету.

Первоначально понятие разметки текстов использовалось для опи­сания ссылок и других отметок в тексте как инструкция для наборщика или машинистки по правилам печати и оформления. После того как со­здание текстов компьютеризировалось, понятие разметки было рас­ширено для обозначения всех кодов, вставляемых в электронные тек­сты для управления форматированием, печатью и прочими видами об­работки. В этом смысле разметка является кодировкой, указывающей на то, как следует понимать текст. Удобство данного вида работы с электронными текстами состоит в том, что можно изменять коды без изменения источника. Язык разметки указывает, каковы правила коди­рования документа, правила отличия знаков кода от знаков текста и что означают коды.

Все языки разметки основаны на трех основных положениях. Во-первых, на самом примитивном уровне все тексты без исключе­ния состоят из символов, например букв или байтов данных, пометок на страницах или графики. Символы получили название "явления". По сути это минимальные частицы текста типа слова или точки, рассмат­риваемые вне зависимости от структурной или категориальной клас­сификации. В базе данных из свободного текста "явления" представ­лены набором байтов для хранения и обработки.

Во-вторых, на следующем уровне абстракции всякий текст рассма­тривается как совокупность объектов различного свойства. Данные объекты появляются в тексте закономерно в определенном отношении к прочим. Объекты могут включать друг друга, иметь связи или быть представлены последовательно. На этом уровне описания текст со­ставлен из структурно определенных объектов, называющихся "эле­ментами". Однако тексты не являются простой чередой слов или бай­тов. Они содержат примеры объектов, такие, как параграфы, заголов­ки, имена, даты, представленные последовательностью "явлений". Все схемы разметки текстов в большей или меньшей степени направ­лены на описание этих компонентов. Можно указать по крайней мере три важных аспекта текстовых объектов, которые нуждаются в распоз­навании. Прежде всего, это "протяжение", т. е. позиции в текстовом потоке, на которых формы объекта начинаются и заканчиваются. За ними следует "тип" — категория, с которой соотнесены формы объек­та, после которой возникает "контекст" — связи текстовых объектов с формами другого объекта в документе.

В-третьих, "тип документа" получается на основе грамматики, оп­ределяющей правила объединения классов текста. Подобным обра­зом природа текста представляется как упорядоченная иерархия объ­ектов содержания.

Различаются два основных типа языка разметки текстов: процедур­ный и декларативный (описательный).

Процедурный язык состоит из знаков, которые изначально ясно указывали на то, как размеченные элементы текста должны быть рас­печатаны. Документы, размеченные процедурным языком, обыкно­венно имеют начальную секцию, заголовок, который иногда хранится в отдельном файле. Заголовок определяет характер знаков, допущен­ных для описания текста, и значки, указывающие на отличие знаков процедурного языка от текста источника — оригинала. Например, ис­пользуются значки {...}, \...\, <...>. Заголовки также могут содержать заданные пользователем условные символы, с помощью которых сложные последовательности знаков процедурного языка можно со­кратить для облегчения использования. Подобная разметка текста нуждается в специальном программном обеспечении, которое изна­чально разрабатывалось для издательских целей. Поэтому можно ут­верждать, что процедурный язык разметки является языком програм­мирования.

Различие между процедурным и описательным языками заключает­ся в том, что описательный определяет структуру и характерные черты документа, а не процедуры обработки. Задачами этого языка являют­ся определение различных феноменов в тексте, например парагра­фов, иноязычных вставок, речи действующих лиц, выделения темати­ческих, стилевых, предметных или иных фрагментов, а также установ­ление связей между ними. Фактически язык разметки сближается в некоторых своих функциях с языками, входящими в состав лингвисти­ческого обеспечения электронных библиотек, а именно информацион­но-поисковыми.

Любая подготовка документа включает разметку текста. К разметке относятся промежутки между словами, отмечающие их границы, запя­тые или точки, фиксирующие границы фраз и предложений. В доку­менте используются два типа разметки текста: пунктуационный и пре­зентационный.

Пунктуационный язык разметки, определяет внутреннюю структуру текста, например указывает на концы предложений с помощью точки. Презентационный язык может содержать для сравнения нумерацию страниц.

Приведенные два типа разметки текста не могут быть игнорирова­ны, поскольку на них построена вся система европейского письма, русского в частности. Пунктуационный язык разметки текста состоит из набора средств, обеспечивающих первичную синтаксическую ин­формацию о написанных высказываниях. Из-за относительной ста­бильности пунктуации она доступна для большинства читателей. Од­нако ее сложность изменяется в зависимости от стилистических вари­аций авторов, социальных и других факторов. Разнообразие пунктуации делает язык богаче, что усложняет компьютерную обработ­ку текста.

Презентационный язык по сравнению с пунктуационным имеет под­чиненный характер. С его помощью обеспечивается удобное пред­ставление текста. Он включает в себя горизонтальные и вертикальные границы текста, номера томов и страниц, цитат и примечаний, шриф­товые выделения, выключки и другие полиграфические особенности. Пунктуационный и презентационный языки существовали и до появле­ния компьютеров.

Упомянутый ранее процедурный язык в компьютерных системах об­работки текстов заменил презентационный. Процедурный язык стал набором компьютерных команд, определяющих, каким образом сле­дует форматировать текст в конкретных программах.

Наконец, существует метаязык, который предоставляет пользова­телю возможность описывать все особенности вводимых в систему документов, в том числе сведения о процедурных и описательных язы­ках, которые были использованы для их подготовки.

Для специалистов, имеющих целью поиск текста, более всего под­ходит описательный язык. Однако описательные языки бывают раз­ные. При этом их средства могут отличаться от процедурного и между собой.

Стандартный обобщенный язык разметки SGML. Для того что­бы было можно переформулировать тексты, размеченные разными языками, был создан универсальный Standard Generalized Markup Language (SGML) — стандартный обобщенный язык разметки. В 1986 г

SGML как инструмент описания текстов в электронных системах полу­чил официальное признание Международной организации по стандар­тизации (ISO) в качестве стандарта ISO 8879:1986.

SGML — это метаязык, т. е. средство формального описания при­кладных языков разметки, предназначенных для кодирования структу­рированных документов. Разметка, определяемая в рамках SGML, ос­новывается на двух постулатах: она описывает структуру документа, а не указывает, что должно происходить с документом или его частями; • она должна быть строгой, чтобы программы и базы данных мог­ли быть использованы для хранения и обработки размеченных документов.

Структура документа с точки зрения SGML представляет собой граф компонентов, вершины которого являются компонентами, а реб­ра — связями между ними. Основным компонентом структурированно­го текста является элемент. Таким образом, можно сказать, что каж­дый структурированный документ состоит из некоторого набора се­мантических элементов, связанных друг с другом по определенным правилам.

Синтаксическое представление элемента документа выглядит так. Тело элемента (содержательный текст) обрамляется открывающим и закрывающим маркерами. Каждый маркер состоит из имени элемен­та, которое уникально и может иметь некоторое количество атрибутов. Последние предназначены для более детального описания текста сре­ди семантически однородных элементов.

Важным достоинством SGML является то, что он не определяет за­ранее имена элементов и их атрибуты. Например, если автор докумен­та считает, что семантически корректнее определить в тексте два типа списков: фамилий и компаний, то он может ввести два элемента: listof-people и listof companies. В дальнейшем эти элементы могут обрабаты­ваться как различные семантические единицы.

Чтобы документ являлся синтаксически корректным с точки зрения SGML, необходимо осуществлять его разметку, подчинялась некоторо­му набору правил, определяемых стандартом ISO. Одно из правил со­стоит в том, что допускается лишь полная вложенность одного элемен­та в другой. Таким образом, в каждом документе всегда будут один кор­невой и некоторое количество иерархически вложенных элементов.

Размеченный документ предназначен для дальнейшей обработки различными программами, каждая из которых может применять свои правила обработки к тем или иным элементам. Одна программа может преобразовывать текст к виду, пригодному для печати на бумаге, а другая — лишь извлекать некоторые данные (например, названия тер­минов) и помещать их в таблицу или базу данных.

Структурная разметка не предназначена для обеспечения удобочи­таемости документов. Для этого существует разметка представления. Соответствующие программные средства преобразуют структурную разметку в разметку представления. Эти и другие программы, обраба­тывающие документ, должны уметь распознавать элементы структуры и атрибуты элементов и применять к определенным элементам необ­ходимые операции.

В SGML это достигается с помощью определений типов документов (Document Type Definition, DTD), посредством конструкций языка, на­зываемых декларациями элементов. В то время как разметка докумен­та занимается описанием семантических единиц, DTD определяет на­бор всех возможных разметок документов описываемого типа.

Тип документа формально определяется его составными частями и их структурой. Например, письмо можно обозначить как документ, име­ющий реквизиты отправителя и получателя, заголовок, несколько абза­цев и дату отправления. Если документ не имеет реквизитов отправите­ля, то в соответствии с нашим определением письмом он не является.

DTD фиксирует допустимые элементы для данного типа документа на любом из уровней вложенности, допустимое содержание каждого из элементов и набор допустимых атрибутов. При этом наличие DTD является обязательным для любого документа. Можно сказать, что в рамках SGML имеют право на существование информационные объек­ты, состоящие из размеченного документа и его DTD.

Одним из достоинств SGML является то, что он позволяет работать не только со структурированными текстами, но и с произвольными ин­формационными объектами. Для этого и вводится понятие объекта. Объектом может быть строка символов или файл (текстовый или би­нарный). Для включения его в документ используется конструкция, из­вестная в ряде языков программирования как ссылка на объект.

SGML представляет собой достаточно емкий и в то же время слож­ный метаязык. На его основе создаются языки разметки, используе­мые в различных областях: подготовка книг, документации, построе­ние систем визуализации данных и т. д., такие, как HTML, XML, MathML, CML и др.

Вместе с тем широта охвата порождает и недостатки. Так, напри­мер, создание единого DTD для подготовки документации в рамках од­ной организации, несомненно, имеет преимущества, такие, как уни­фикация исходного кода, возможность автоматического индексирова­ния данных, ведение единого словаря терминов, написание стандартных средств обработки документов, получение стандартного бумажного представления и т. п. Но как только мы выходим за рамки организации, проекта или отрасли, то все упирается в утверждение данного DTD в качестве общего стандарта. Кроме того, как только при­нимается стандарт на некоторый DTD, сразу начинается борьба за его расширение, и так может продолжаться до бесконечности.

Другой недостаток проявляется при создании программ (напри­мер, для редактирования SGML-документов), которые должны позво­лять работать с любыми DTD и учитывать все возможности, предоставляемые стандартом SGML. К сожалению, это допустимо лишь теорети­чески, так как объем таких программ будет чрезвычайно велик. Вот по­чему возникла тенденция создания языков разметки с более простым синтаксисом, которые в то же время подчинялись бы требованиям стандарта SGML. И наибольшее распространение из этих языков полу­чил HTML.

Гипертекстовый язык разметки HTML. Язык разметки HTML разработан в Лаборатории физики высоких энергий (CERN) в Женеве в 1990 г. Первоначально HTML был предназначен для разметки научных документов и их последующего совместного использования сотрудни­ками разных институтов и лабораторий. HTML состоял из небольшого фиксированного набора элементов, заголовков нескольких уровней, абзацев, списков и др. Но главной его особенностью было использова­ние гиперссылок и специальных меток для указания точек перехода. Все это позволяло достаточно легко размечать простые документы и устанавливать связи как между ними, так и между компонентами одно­го документа. Человек всегда обрабатывает и анализирует информа­цию нелинейным образом. Поэтому возможности нелинейного хране­ния информации, простота использования языка разметки и широкие возможности применения привели к тому, что популярность HTML ста­ла быстро расти и вне академических рамок. Как это часто бывает с любыми гениальными открытиями, успех превзошел все ожидания со­здателей.




Дата добавления: 2015-09-12; просмотров: 16 | Поможем написать вашу работу | Нарушение авторских прав

Показатели информационного обслуживания, применяемые в ГПНТБ России 1 страница | Показатели информационного обслуживания, применяемые в ГПНТБ России 2 страница | Показатели информационного обслуживания, применяемые в ГПНТБ России 3 страница | Показатели информационного обслуживания, применяемые в ГПНТБ России 4 страница | Показатели информационного обслуживания, применяемые в ГПНТБ России 8 страница | Показатели информационного обслуживания, применяемые в ГПНТБ России 9 страница | Показатели информационного обслуживания, применяемые в ГПНТБ России 10 страница | II часть |


lektsii.net - Лекции.Нет - 2014-2024 год. (0.014 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав