Метод шинглов
Как поисковики ищут дубли текстов? С помощью модифицированного метода шинглов. Работает алгоритм следующим образом.
Сканируется (скачивается) документ из интернета. Из текста удаляются все последовательности тегов и вхождения стоп слов. Далее документ разбивается на некоторую последовательность словосочетаний - шинглов. Эти словосочетания хешируются. Далее для двух текстов сравниваются эти последовательности и на основе подсчета количества совпадений делается результат о проценте совпадений.
Однако поисковые системы применяют модифицированный алгоритм шинглов с использованием обратных индексных файлов.
Реклама:
Набор хороших флеш игр онлайн можно найти здесь: flash-game-online.narod.ru