Супер шинглы

12
Hkey
На сайте с 30.09.2006
Offline
222
2930

Есть у кого то или где то информация о супершинглах. Обычные шинглы не интересуют, уже написал прогу, которая их считает.

Мне нужен алгоритм или какая то информация о них и о кореляции с обычными шинглами.

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
S
На сайте с 03.08.2006
Offline
71
#1

Hkey, а Вы не подскажете где можно об обычных поподробнее прочитать?

Как много веселых ребят и все делают велосипед, а один из них как-нибудь утром придумает порох.
Фриман
На сайте с 11.11.2005
Offline
50
#2

samurai

http://dbpubs.stanford.edu:8091/diglib/pub/reports/

S. Brin, J. Davis, and H. Garcia-Molina

Copy Detection Mechanisms for Digital Documents

Hkey

Впервые о таких слышу, у вас откуда информация?

Megavolt
На сайте с 23.12.2005
Offline
179
#3

звезды входят в галактики, галактики в скопления галактик, скопления в сверхскопления.....

Иногда лучше жевать.... (С)
Dervish
На сайте с 11.05.2005
Offline
186
#4

Впервые слышу. Источник укажете?

Пингвин под микроскопом. (http://ac-u.ru/arts/pingvin-pod-mikroskopom/) Особенности продвижения Интернет-магазинов. (http://ac-u.ru/arts/osobennosti-prodvizhenija-internet-magazinov-bytovojj-ili-kompjuternojj-tekhniki-s-interesnymi-primerami-i-zabavnymi-kartinkami/) Копирайтинг. Качественно. (/ru/forum/725909)
AVV
На сайте с 31.07.2006
Offline
84
AVV
#5
samurai:
Hkey, а Вы не подскажете где можно об обычных поподробнее прочитать?

... индексация поисковыми машинами страниц, генерируемых из баз данных, порождает еще один распространенных класс внешне мало отличающихся документов: анкеты, форумы, страницы товаров в электронных магазинах

Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.

Для решения этой задачи Udi Manber (Уди Манбер) (автор известной программы приближенного прямого поиска agrep) в 1994 году предложил идею [manber1994], а Andrei Broder (Андрей Бродер) в 1997 [broder] придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички, чешуйки»). Вот его примерное описание.

Далее см.: Илья Сегалович. (с) Как работают поисковые системы. Качество индекса.

http://company.yandex.ru/articles/article10.html

S
На сайте с 03.08.2006
Offline
71
#6
Фриман:
Впервые о таких слышу, у вас откуда информация?

Поэтому на практике часто над набором шинглов документа считают еще одну контрольную сумму, так называемый "супершингл". http://www.spamtest.ru/document.html?id=0032 А так же спасибо всем за предоставленную информацию

Hkey
На сайте с 30.09.2006
Offline
222
#7

Спасибо за ссылки, но я их все перечитал до создания топика. Но не могу понять зачем супершинглы нужны. Есть два варианта:

1. Если два документа имеют одинаковый супер шингл их ставят на проверку на склейку.

2. Если два документа имеют одинаковый супер шингл их сразу клеят.

Недостатки:

1. Нереально выбрать алгоритм, который с помощью одного контрольного значения находит два почти одинаковых документа.

2. Просто так Яша ничего не склеял, если бы склеял точно топик бы был. Все равно нужна перепроверка.

3. В одной статье я видел, что супер шингл даеться фиксированому значению шинглов и супер шинглов может быть несколько на документ.

4. В другой, что супер шингл один на весь документ.

Недостатки:

3. Если это просто чек сум шинглов. То он чувствителен к замене одного слова. Это просто длинный шингл, никому не нужный. Если у него какаето хитрая система, то чем он отличаеться от выборки? Зачем вводить новое слово?

4. см. недостатки 2.

Наиболее реальный алгоритм расчета супер шинглов:

I. Считаеться маленькие шинглы, находяться самые редкие. И с некоторой погрешностью количество кажого редкого шингла записываеться в супер шингл. Погрешность позволяет лучше находить подозрения на дубли.

Что то вроде этого.

II. Никаких супер шинглов нет Яша нас обманывает

Расчет выборки шинглов:

Из статей понятно, что на каждый документ находятиться выборка из 85 шинглов. Как она находиться:

S1...Si - шинглы

F1...F85 случайные функции расчета контрольных сумм выборок. Функции постоянные, но сгенерированы на шару. Т.е. для двух документов функции одинаковые.

V1...V85 - шинглы выборки

----------------

V1= MIN(F1(S1), ... F1(Si))

...............................

V85 = MIN (F85(S1), ... F85(Si)).

---------------------------

Сравнение документов происходит по этим в худшем случае 85 раз.

первый док V1 == V1 второй док.

Это шинглы и их выборка. Не могу понять, что есть супершинглы.

Hkey
На сайте с 30.09.2006
Offline
222
#8

Люди добрый еще одного не могу понять, кто и за что поставил мне за этот пост -91 репутации? Хотя бы коментарий написал :(.

Расписал много инфы по шинглам которые нашел в 5ти статьях. Как считаються их выборки. По ним проходит самая жесткая проверка. Хотел написать, что дают эти расуждения на практике... Теперь боюсь... Писать или нет?

Фриман
На сайте с 11.11.2005
Offline
50
#9
samurai:
Поэтому на практике часто над набором шинглов документа считают еще одну контрольную сумму, так называемый "супершингл". http://www.spamtest.ru/document.html?id=0032
Hkey:
Спасибо за ссылки, но я их все перечитал до создания топика. Но не могу понять зачем супершинглы нужны.

Действительно непонятно, они ведь только четкие копии ловить будут...

S
На сайте с 14.10.2006
Offline
5
#10
Хотел написать, что дают эти расуждения на практике... Теперь боюсь... Писать или нет?

конечно писать!!! Чего боитесь-то?

Хотя бы коментарий написал

наверное, человек не из смелых...

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий