Студопедия  
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Профессиональных базах.

Читайте также:
  1. В) ОПРЕДЕЛЕНИЕ ИМЕЮЩИХСЯ ПРОФЕССИОНАЛЬНЫХ НАВЫКОВ
  2. Виды профессиональных задач и характеристика их особенностей
  3. Вклад дисциплины в формирование общекультурных и профессиональных компетенций.
  4. Вопрос 22. Появление профессиональных государственных служащих при Петре I
  5. История создания институтов профессиональных бухгалтеров в континентальной Европе и США
  6. Коммерческий подкуп. Подкуп участников и организаторов профессиональных спортивных соревнований и зрелищных коммерческих конкурсов
  7. Критерии оценки сформированности профессиональных компетенций
  8. Круг лиц, обеспечиваемых страховыми выплатами в порядке обязательного социального страхования от несчастных случаев на производстве и профессиональных заболеваний
  9. Лица, подлежащие обязательному страхованию от несчастных случаев на производстве и профессиональных заболеваний
  10. Метод 3. Определение производственной мощности, на основании мощности профессиональных групп

В соответствии с Законом «Об информации, информатизации и защите информации»№224-ФЗ от 20.02 1995 года под термином «информация» понимаются сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от формы их представления.

Специалисты в области теории познания утверждают, что человек познает реальный мир через объекты, свойства и отношения. Лица, предметы, факты, события, явления и процессы являются классами объектов. Предметная область это классы объектов, информация о которых необходима в данном виде деятельности человека. В каждой предметной области потребителей интересует определенный и чаще всего различный перечень свойств и глубина описания этих свойств. Очевидно, что перечни свойств о лице в экономике и в медицине, которые интересуют потребителя, будут различны.

Информация о предметной области, то есть об объектах и их связях, может быть представлена в двух видах: формализованном и в виде текста на естественном языке.

Формализованное описание конкретного объекта включает имя свойства (характеристики) и значение этого свойства для этого объекта. Имя свойства отражает ту грамматическую роль, которую играет значение этого свойства по отношению к данному классу объектов. Значение свойства (характеристики) может задаваться нормированным словарем или произвольно. Например, значение свойства «организационно-правовая форма фирмы, организации» должно выбираться из нормированного словаря, а значение свойства «название организации» является произвольным. Формализованное описание объекта во многом схоже с анкетной формой описания объекта. Некоторые авторы называют формализованное описание информации-числовым. Это не совсем точное определение, так как фамилия лица или название организации задается не числовым значением, но может быть представлено в формализованном виде.

Названия классов объектов, свойств и областей возможных значений этих свойств (характеристик), то есть язык формализованного описания для каждой предметной области, разрабатывают квалифицированные специалисты данного вида деятельности. С помощью отдельных свойств устанавливаются связи между объектами. Так например, если описаны два объекта: фирма и товар, то между ними устанавливается связь-отношение, указывающее, что эта фирма выпускает этот товар. Описание такого формализованного языка после согласования с источниками и потребителями информации в данной предметной области издается в виде нормативного документа и на основе его создаются базы данных формализованной информации. Описание информации в таких базах в максимальной степени приближено к представлению специалиста о предметной области, в которой он работает. Формализованный язык описания предметной области выполняет следующие основные функции:

• Позволяет источнику отбирать лишь ту информацию и описывать ее так, как это необходимо потребителю;

• Позволяет в базах данных отражать информацию в том же виде, в каком она отражена в сознании специалиста данной предметной области;

• Позволяет в информационных системах по указанию потребителя производить автоматическую обработку формализованной информации.

• Существенно облегчает поиск необходимой информации в базах данных.

Другим видом информации о предметной области является информация, представленная в виде текста на естественном языке. Для того, чтобы понять, в какой степени информация на естественном языке, накапливаемая в информационных системах, подходит для удовлетворения информационных потребностей пользователя рассмотрим в самых общих чертах природу восприятия человеком реальной действительности и отображение этой действительности на естественном языке. Индивидуальное знание предметной области источником и потребителем информации складывается из совокупности представлений и понятий. Представления- это чувственно наглядные образы объектов реального мира. Источником формирования представлений являются психологические процессы ощущения и восприятия а также информация, получаемая от других членов общества в процессе общения. В результате создаются представления об объектах реального мира. Представления носят субъективный характер, который определяется внутренним психологическим миром данного человека. Хотя у разных людей создаются разные представления о реальном мире, в них присутствует элемент общности, которой позволяет использовать представления в процессе общения.

Понятия образуются в результате логического осмысления представлений об объектах реального мира и являются формой абстрактного мышления, отражающей и фиксирующей существенные признаки данных объектов. Понятия более объективны и в большей степени отражают коллективный опыт. Понятия и представления тесно связаны друг с другом и являются формой отражения реальной действительности в мышлении.

Язык – это средство, с помощью которого люди передают друг другу информацию о реальном мире. Словарные выражения являются материальной формой понятий и представлений. Естественный язык является результатом длительного развития общества. Поскольку для различных слоев общества характерна разная степень общности представлений, возникла многозначность слов естественного языка: одно и тоже слово приобретало множество различных значений и для одного и того же слова использовалось несколько словесных выражений. Таким образом общим недостатком естественного языка с позиций оценки эффективности поиска является избыточность и недостаточность.

Избыточность проявляется в следующем

1.Для передачи содержания текста активную роль играют только некоторые слова или словосочетания, так называемые ключевые слова. Другие можно отбросить практически без ущерба для понимания смысла.

2. В естественном языке используются синонимы, то есть слова различающиеся по звучанию и написанию, но тождественные или близкие по смыслу.

3. Неоднозначность выражения, то есть возможность выразить одну и туже мысль совами, не являющимися синонимами(уменьшение сопротивления –увеличение проводимости).

Недостаточность выражения на естественном языке проявляется в следующем.

1. Многозначность отдельных слов- омонемия, совпадение по звучанию и написанию разных по значению слов). Ключ (для двери), ключ(источник).

2. Эллипсность естественного языка. Под эллипсностью понимается пропуск в тексте подразумеваемых слов.

Если рассматривать процесс отражения объектов реального мира текстом на естественном языке, то можно выделить план содержания- смысл сообщения, то есть результат процесса мышления, и план выражения- произвольный текст на естественном языке. Таким образом тексты на естественном языке, хранящиеся в информационных системах, находятся на уровне плана выражения и характеризуются всеми недостатками естественного языка, которые были отмечены выше. Следует иметь ввиду, что выявленные недостатки следует рассматривать лишь с позиций эффективного поиска сообщений в информационных системах.

Причина неоднозначности выражений при рассмотрении под другим углом будет отнесена к достоинствам естественного языка. Например, эллипсность.

Отметим, что потребитель информации, пользователь нуждается в получении информации о предметной области в соответствии со своими представлениями об объектах, свойствах и отношениях в этой области.

Свой запрос он также формулирует на уровне плана выражения. Таким образом в самой информационной системе, содержащей тексты на естественном языке, мы имеем массив планов выражения источников на естественном языке, а на входе информационной системы мы имеем множество запросов в виде планов выражения, сформулированных потребителями информации.

Для того, чтобы решить задачу поиска необходимой потребителю информации необходимо смоделировать, представить - о каком фрагменте предметной области потребитель хочет получить информацию. Далее необходимо просмотреть хранящиеся документы – планы выражения, составленные источниками, и представить, смоделировать – что хотел сказать источник о предметной области и на основе научно обоснованной методики отобрать те из них, которые отвечают на поставленный вопрос полностью или частично.

Многолетние работы в области теории построения документальных информационных систем, в области машинного перевода, проводимые последние пятьдесят лет в нашей стране и за рубежом показали, что процесс выявления смысла из произвольного текста на естественном языке не подлежит автоматизации и может быть реализован лишь человеком, обладающим глубокими знаниями в данной предметной области.

Однако, общество нуждалось в построении документальных информационных систем в первую очередь в области научно-технической информации. Для того чтобы облегчить поиск в больших массивах текстовой информации стали строить информационно-поисковые системы, в которых документы описывались с помощью специальных поисковых языков. С помощью элементов этого же языка описывались и запросы.

Для отбора документов в ответ на запрос осуществлялось сравнение поисковых образов запросов и поисковых образов документов, которое проводилось на одном и том же искусственном языке.

Такой подход является вынужденным. Из-за недостатков естественного языка, отмеченных выше, документальные информационные системы не дают ответа на вопрос потребителя, а выдают ему документы, в которых может содержаться ответ на его запрос, предоставляя потребителю самому выявить смысловое содержание этих документов. Вопросы оценки эффективности поиска информации в документальных информационных системах будут рассмотрены ниже.

Вопросы эффективности поиска информации в Интернет и профессиональных базах

Одними из наиболее важных показателей эффективности информационных систем, содержащих текстовую информацию, являются семантические показатели. Семантические показатели основаны на оценке релевантности между документами и запросами.

Релевантность – объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса. Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум).

Введем следующие обозначения:

а – множество релевантных и выданных системой документов;

б - множество нерелевантных, но выданных системой документов;

в – множество релевантных, но не выданных системой документов;

Другой группой показателей оценки эффективности документальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы.

Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов.

Пертинентность это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности.

Рассмотрим вопросы оценки эффективности поиска в профессиональных базах и информационных ресурсах Интернет. Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации в профессиональных базах. Если в 1985 году доля текстовой информации составляла 47%, то в 2000 году эта доля составляла уже 84%.

Представляется, что основная информация в Интернет также является текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональные базы и на информационные ресурсы Интернет.

Рассмотрим специфику информационных ресурсов Интернет и имеющихся в среде Интернет поисковых средств, которые оказывают существенное влияние на эффективность поиска в этой среде.

1. Основными поисковыми средствами в Интернет являются поисковые системы и каталоги.

Поисковые системы состоят из трех частей:

• Робот – программа, которая посещает Web –серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например раз в месяц, раз в две недели.

• В поисковой системе хранятся индексные массивы и копии текстов просмотренных страниц.

• Программа, которая в соответствии с запросом пользователя просматривая индексные массивы отбирает и выдает потребителю найденные документы.

В каталогах имеются иерархические тематические рубрики. Отнесение серверов к тем или иным рубрикам каталога осуществляется человеком. Поиск информации в каталоге осуществляет пользователь вручную используя рубрики.

В связи с тем, что в средствах поиска в Интернет не используются информационно-поисковые языки, на которых должны были бы описаны исходные документы и запросы, полнота поиска в Интернет с учетом описанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков.

2. В 2000 году специалисты компаний AltaVista,IBM и Compag исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн. Web-страниц и 1,5 млрд. ссылок, размещенных на этих страницах, они пришли к выводу что исследуемое пространство состоит из следующих компонент:

• Центральное ядро это тесно связанные между собой Web-страницы, с каждой из которых можно попасть на любую другую (27%);

• Отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22%);

• Оконечные Web-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22%);

• Полностью изолированные от центрального ядра страницы (22%);

• Web-страницы, не пересекающиеся с остальными ресурсами Интернет (7%).

Исследования показали, что при увеличении общего объема информационных ресурсов Интернет, установленные отношения компонент остаются прежними. Проведенный анализ позволяет сделать вывод о том, что информационное пространство Интернет является достаточно сложным и неоднородным. К отдельным ресурсам Интернет поисковые машины не имеют доступа.

3. У каждой поисковой машины свой процент индексирования документов и своя стратегия выбора-какие из ресурсов индексировать.

Анализ числа заиндексированных документов крупнейшими зарубежными поисковыми системами от общего числа документов в Интернет, проведенный в 1999 году, показал, что доля заиндексированных документов у лидеров в этой области не превышает 30%. Следует отметить, что ежегодно значительно увеличивается число документов в Интернет, при этом доля просмотренных и заиндексированных документов уменьшается..

4. Информационные ресурсы Интернет делятся на «видимую» и «невидимую» часть сайтов.

«Видимая» часть сайтов-это та часть, которая обрабатывается поисковыми системами и индексируется. «Невидимая» часть – это та часть сайта, которая не предназначена для обработки поисковыми системами.

Американская фирма BrightPlanet разработала программное обеспечение по исследованию «невидимой» части сайтов. Полученные результаты показывают, что число документов «невидимой» части более чем в 500 раз превышает число документов, относящихся к «видимой» части.

Перечисленные особенности информационных ресурсов Интернет и поисковых средств позволяют сделать вывод о том, что эффективность поиска информации в Интернет существенно уступает эффективности поиска информации в документальных информационно-поисковых системах, использующих специальные информационно – поисковые языки, и эффективности поиска в профессиональных базах. Эти обстоятельства определяют те высокие требования к профессиональной подготовке пользователя, которые необходимы для получения нужной информации из информационных ресурсов Интернет. Организация информации в профессиональных базах отличается от организации информации в Интернет в первую очередь тем, что информация накапливается и постоянно обновляется в базах данных, которых в настоящее время свыше 13 тысяч. В каждой базе накапливается специфичная информация. Отбор достоверных источников и накопление информации ведут информационные Агентства – генераторы. Они же поддерживаю эти базы в актуальном состоянии, то есть обновляют.

Предоставление информации из баз потребителям осуществляют Агентства – поставщики. Потребителю предоставляется язык запроса и документация, характеризующая базы данных. По каждой базе имеется название, отражающее вид информации, хранимой в базе, с какого времени ведется база, объем накопленной информации, период обновления, источники предоставления информации.

Указанные особенности обеспечивают высокие показатели по достоверности, полноте и точности предоставляемой информации.




Дата добавления: 2015-02-16; просмотров: 34 | Поможем написать вашу работу | Нарушение авторских прав




lektsii.net - Лекции.Нет - 2014-2024 год. (0.009 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав