Читайте также:
|
|
Для автоматизации процесса информационного поиска используется формализация представления основного, смыслового содержания информационного запроса и документов в виду ПП и ПОД. Однако в ПП и ПОД отражается лишь основное смысловое содержание поступающих документов в сокращенном виде. Метод информационного поиска основанный на сопоставление ПП и ПОД не в состоянии полностью обеспечить отыскание всех документов, отвечающих информационному запросу. Это приводит к тому что часть доказательств отвечающих запросу (релевантные запросы) остается не выданные потребителю.
В то же время во множестве выданных потребителю документов, которые не отвечают запросу являются не релевантными т.е. практически в любой документной системе присущи два типа ошибок.
1. Первого рода (пропуск цели) невыдача потребителю релевантного его запросу документов.
2. Ошибки второго рода (ложная тревога, шум) выдача потребителю нерелевантных документов несоответствующих запросу.
Наличие в реальной системе данных выше – обуславливает разбиение всего массива документов, по отношению к запросу на 2 подмассива.
ВЫДАННЫЕ | НЕВЫДАННЫЕ | |
РЕЛЕВАНТНЫЕ | А | C |
НЕРЕЛЕВАНТНЫЕ | B | В |
а – количество документов подмассива А.
b – количество документов подмассива B
c – количество документов подмассива C
d –количество документов подмассива D
Показатели эффективности документальных систем:
1. Коэфициент полноты – характеризует долю выданных релевантных документов во всем массиве выданных релевантных документов.
2. Коэфициент точности – характеризует долю выданных релевантных документов во всем массиве выданных документов.
3. Коэффициент шума – характеризует долю выданных нерелевантных документов во всем массиве выданных документов.
4. Коэффициент осадка – доля выданных нерелевантных документов во всем массиве нерелевантных документов.
5. Коэффициент специфичности – характеризует не выданных документов не релевантных во всем массиве нерелевантных документов.
При оценке качества реальных систем наиболее часто используются коэффициенты полноты и точности.
Точность поиска и его полнота зависят не только от свойств поисковой системы, и от правильности построения запроса, но так же от субъективного представления пользователя о том, что такое нужная ему информация.
Однако при желании можно вычислить среднее значение полноты и точности конкретной системы, протестировав её на эталонной базе документов.
Очевидно, что хорошая поисковая система должна иметь как можно большие коэффициенты полноты и точности (, т.е. чтобы находились все нужные документы и не выдавала ничего лишнего. Однако 100% качества поиска невозможно, т.к. на фиксированном уровне мощности поискового средства все попытки улучшить один из параметров приводят к ухудшению другого параметра.
Дата добавления: 2015-01-05; просмотров: 11 | Поможем написать вашу работу | Нарушение авторских прав |