Метод шинглов

Как поисковики ищут дубли текстов? С помощью модифицированного метода шинглов. Работает алгоритм следующим образом.

Сканируется (скачивается) документ из интернета. Из текста удаляются все последовательности тегов и вхождения стоп слов. Далее документ разбивается на некоторую последовательность словосочетаний - шинглов. Эти словосочетания хешируются. Далее для двух текстов сравниваются эти последовательности и на основе подсчета количества совпадений делается результат о проценте совпадений.

Однако поисковые системы применяют модифицированный алгоритм шинглов с использованием обратных индексных файлов.

Реклама:

Набор хороших флеш игр онлайн можно найти здесь: flash-game-online.narod.ru

Создать бесплатный сайт с uCoz