|
Метод шингловКак поисковики ищут дубли текстов? С помощью модифицированного метода шинглов. Работает алгоритм следующим образом. Сканируется (скачивается) документ из интернета. Из текста удаляются все последовательности тегов и вхождения стоп слов. Далее документ разбивается на некоторую последовательность словосочетаний - шинглов. Эти словосочетания хешируются. Далее для двух текстов сравниваются эти последовательности и на основе подсчета количества совпадений делается результат о проценте совпадений. Однако поисковые системы применяют модифицированный алгоритм шинглов с использованием обратных индексных файлов. Реклама: Набор хороших флеш игр онлайн можно найти здесь: flash-game-online.narod.ru |