Вернуться к результатам поиска

RCO Deduplicator SDK

Вернуться к результатам поиска
RCO Deduplicator SDK
Компания:
Эр Си о
Производство:
Москва
Выявление дублей загружаемого документа среди имеющихся в базе данных (БД) необходимо для очистки результатов поиска от лишней информации и, следовательно, упрощения аналитической работы с базой.
Процедура избавления от дубликатов двухэтапная. Первый этап – выявление важных для обнаружения дубликатов характеристик поступившего в систему документа. Второй – поиск дубликатов.
Процедура выявления дубликатов двухэтапная. Первый этап – выявление важных для обнаружения дубликатов характеристик поступившего в систему документа. Второй – собственно поиск дубликатов.
Дубликаты выявляются с использованием следующих условий:
- Хотя бы одна контрольная сумма предложений совпадает (необходимое условие);
- Разница в числе слов документов не превышает заданного значения или отношение длин документов не превосходит определенного значения (необходимое условие);
- Все контрольные суммы предложений совпадают (достаточное условие);
- Контрольные суммы частых слов совпадают (достаточное условие.
! Использование библиотеки RCO Deduplicator возможно лишь при наличии работающей версии программы RCO Fact Extractor !