Читайте также: |
|
Основні результати, отримані в ході наукового дослідження, полягають у наступному:
1. Розроблена і досліджена функція релевантності, що дозволяє обчислити кількісну оцінку подібності рядків на основі алгоритму порівняння підрядків. Результатом роботи функції є відсоток релевантності, де результат 0% дорівнює повному неспівпадіння двох рядків, а 100% - повній їх ідентичності. Дослідження розробленої функції показали: на коротких реквізитах, середня довжина яких не перевищує 30 символів, найбільш ефективно використовувати сукупну оцінку, одержувану з оцінок при роботі функції на діапазоні N = l,...,4. При цьому значення функції при N> 5 можна відкинути як приблизно ідентичне значенню функції при N = 4; при лінійному збільшенні значення N від 4 і вище, оцінка точності не росте на фоні збільшення довжини слова, на довгих реквізитах достатньо використання функції порівняння при N = 4.
Простота і швидкодія даного алгоритму є його конкурентною перевагою в разі обробки великих масивів даних.
2. Розроблено алгоритм, розпізнавання та усунення дублікатів при надходженні в базу даних з множинних джерел зі слабоструктурованою інформацією, що дозволяє зберегти інформаційну цілісність, а також знизити зашумленість даних, обумовленою наявністю помилок операторського введення. В якості основи для реалізації алгоритму розпізнавання дублікатів була використана функція релевантності.
3. Розроблено алгоритм пошуку по атрибутах на основі функції релевантності, процедури формування ключа фонетичної схожості, відстані Левенштейна і процедури наближеного пошуку на базі модифікації алгоритму прямого перебору. Спеціально, розроблена процедура наближеного пошуку застосовується виключно до пошуку по довгих рядках.
4. Розроблено алгоритм ідентифікації фізичних осіб з використанням правил ідентифікації та функції релевантності на основі алгоритму несуворого порівняння рядків, що дозволяє оцінити ступінь схожості даних про клієнтів. Для ефективної роботи алгоритму були реалізовані: процедура обчислення відстані Левенштейна; система правил ідентифікації; система підвищувальних коефіцієнтів на підставі відстані між рядками.
5. Розроблено алгоритм прискореного виконання нестрогих реляційних операцій на основі префіксного коду, що дозволяє скоротити час виконання операції обчислення релевантності в середньому на 27,8%.
7. Розроблено програмне забезпечення, що реалізує розроблені алгоритми і доповнює реляційні СУБД можливостями ідентифікації об'єктів в базах даних.
8. Розроблено і впроваджено в ПАТ «КРЕДОБАНК» програмні модулі, що скоротили кількість, оброблюваних вручну даних. Середній показник зниження зашумленості за рік склав 5,3%, кількість ототожнених записів збільшилася на 35%-44%. Практично це значно підвищило ефективність роботи з перевірки реєстрів та заощадило години робочого часу.
Дата добавления: 2015-09-10; просмотров: 74 | Поможем написать вашу работу | Нарушение авторских прав |