Супер шинглы

222

Hkey

14 октября 2006, 01:00

2930

Есть у кого то или где то информация о супершинглах. Обычные шинглы не интересуют, уже написал прогу, которая их считает.

Мне нужен алгоритм или какая то информация о них и о кореляции с обычными шинглами.

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))

S

71

samurai

14 октября 2006, 05:26

#1

Hkey, а Вы не подскажете где можно об обычных поподробнее прочитать?

Как много веселых ребят и все делают велосипед, а один из них как-нибудь утром придумает порох.

50

Фриман

14 октября 2006, 06:25

#2

samurai

http://dbpubs.stanford.edu:8091/diglib/pub/reports/

S. Brin, J. Davis, and H. Garcia-Molina

Copy Detection Mechanisms for Digital Documents

Hkey

Впервые о таких слышу, у вас откуда информация?

179

Megavolt

14 октября 2006, 07:39

#3

звезды входят в галактики, галактики в скопления галактик, скопления в сверхскопления.....

Иногда лучше жевать.... (С)

186

Dervish

14 октября 2006, 11:17

#4

Впервые слышу. Источник укажете?

Пингвин под микроскопом. (http://ac-u.ru/arts/pingvin-pod-mikroskopom/) Особенности продвижения Интернет-магазинов. (http://ac-u.ru/arts/osobennosti-prodvizhenija-internet-magazinov-bytovojj-ili-kompjuternojj-tekhniki-s-interesnymi-primerami-i-zabavnymi-kartinkami/) Копирайтинг. Качественно. (/ru/forum/725909)

84

AVV

14 октября 2006, 11:46

#5

samurai:
Hkey, а Вы не подскажете где можно об обычных поподробнее прочитать?

... индексация поисковыми машинами страниц, генерируемых из баз данных, порождает еще один распространенных класс внешне мало отличающихся документов: анкеты, форумы, страницы товаров в электронных магазинах

Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.

Для решения этой задачи Udi Manber (Уди Манбер) (автор известной программы приближенного прямого поиска agrep) в 1994 году предложил идею [manber1994], а Andrei Broder (Андрей Бродер) в 1997 [broder] придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички, чешуйки»). Вот его примерное описание.

Далее см.: Илья Сегалович. (с) Как работают поисковые системы. Качество индекса.

http://company.yandex.ru/articles/article10.html

S

71

samurai

14 октября 2006, 11:59

#6

Фриман:
Впервые о таких слышу, у вас откуда информация?

Поэтому на практике часто над набором шинглов документа считают еще одну контрольную сумму, так называемый "супершингл". http://www.spamtest.ru/document.html?id=0032 А так же спасибо всем за предоставленную информацию

222

Hkey

14 октября 2006, 20:49

#7

Спасибо за ссылки, но я их все перечитал до создания топика. Но не могу понять зачем супершинглы нужны. Есть два варианта:

1. Если два документа имеют одинаковый супер шингл их ставят на проверку на склейку.

2. Если два документа имеют одинаковый супер шингл их сразу клеят.

Недостатки:

1. Нереально выбрать алгоритм, который с помощью одного контрольного значения находит два почти одинаковых документа.

2. Просто так Яша ничего не склеял, если бы склеял точно топик бы был. Все равно нужна перепроверка.

3. В одной статье я видел, что супер шингл даеться фиксированому значению шинглов и супер шинглов может быть несколько на документ.

4. В другой, что супер шингл один на весь документ.

Недостатки:

3. Если это просто чек сум шинглов. То он чувствителен к замене одного слова. Это просто длинный шингл, никому не нужный. Если у него какаето хитрая система, то чем он отличаеться от выборки? Зачем вводить новое слово?

4. см. недостатки 2.

Наиболее реальный алгоритм расчета супер шинглов:

I. Считаеться маленькие шинглы, находяться самые редкие. И с некоторой погрешностью количество кажого редкого шингла записываеться в супер шингл. Погрешность позволяет лучше находить подозрения на дубли.

Что то вроде этого.

II. Никаких супер шинглов нет Яша нас обманывает

Расчет выборки шинглов:

Из статей понятно, что на каждый документ находятиться выборка из 85 шинглов. Как она находиться:

S1...Si - шинглы

F1...F85 случайные функции расчета контрольных сумм выборок. Функции постоянные, но сгенерированы на шару. Т.е. для двух документов функции одинаковые.

V1...V85 - шинглы выборки

----------------

V1= MIN(F1(S1), ... F1(Si))

...............................

V85 = MIN (F85(S1), ... F85(Si)).

---------------------------

Сравнение документов происходит по этим в худшем случае 85 раз.

первый док V1 == V1 второй док.

Это шинглы и их выборка. Не могу понять, что есть супершинглы.

222

Hkey

14 октября 2006, 20:59

#8

Люди добрый еще одного не могу понять, кто и за что поставил мне за этот пост -91 репутации? Хотя бы коментарий написал :(.

Расписал много инфы по шинглам которые нашел в 5ти статьях. Как считаються их выборки. По ним проходит самая жесткая проверка. Хотел написать, что дают эти расуждения на практике... Теперь боюсь... Писать или нет?

50

Фриман

14 октября 2006, 21:21

#9

samurai:
Поэтому на практике часто над набором шинглов документа считают еще одну контрольную сумму, так называемый "супершингл". http://www.spamtest.ru/document.html?id=0032

Hkey:
Спасибо за ссылки, но я их все перечитал до создания топика. Но не могу понять зачем супершинглы нужны.

Действительно непонятно, они ведь только четкие копии ловить будут...

S

5

starfox

14 октября 2006, 22:31

#10

Хотел написать, что дают эти расуждения на практике... Теперь боюсь... Писать или нет?

конечно писать!!! Чего боитесь-то?

Хотя бы коментарий написал

наверное, человек не из смелых...

Что делать, чтобы попасть в ответы Google Bard

VK приобрела 70% в структуре компании-разработчика red_mad_robot