- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть у кого то или где то информация о супершинглах. Обычные шинглы не интересуют, уже написал прогу, которая их считает.
Мне нужен алгоритм или какая то информация о них и о кореляции с обычными шинглами.
Hkey, а Вы не подскажете где можно об обычных поподробнее прочитать?
samurai
http://dbpubs.stanford.edu:8091/diglib/pub/reports/
S. Brin, J. Davis, and H. Garcia-Molina
Copy Detection Mechanisms for Digital Documents
Hkey
Впервые о таких слышу, у вас откуда информация?
звезды входят в галактики, галактики в скопления галактик, скопления в сверхскопления.....
Впервые слышу. Источник укажете?
Hkey, а Вы не подскажете где можно об обычных поподробнее прочитать?
... индексация поисковыми машинами страниц, генерируемых из баз данных, порождает еще один распространенных класс внешне мало отличающихся документов: анкеты, форумы, страницы товаров в электронных магазинах
Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.
Для решения этой задачи Udi Manber (Уди Манбер) (автор известной программы приближенного прямого поиска agrep) в 1994 году предложил идею [manber1994], а Andrei Broder (Андрей Бродер) в 1997 [broder] придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички, чешуйки»). Вот его примерное описание.
Далее см.: Илья Сегалович. (с) Как работают поисковые системы. Качество индекса.
http://company.yandex.ru/articles/article10.html
Впервые о таких слышу, у вас откуда информация?
Поэтому на практике часто над набором шинглов документа считают еще одну контрольную сумму, так называемый "супершингл". http://www.spamtest.ru/document.html?id=0032 А так же спасибо всем за предоставленную информацию
Спасибо за ссылки, но я их все перечитал до создания топика. Но не могу понять зачем супершинглы нужны. Есть два варианта:
1. Если два документа имеют одинаковый супер шингл их ставят на проверку на склейку.
2. Если два документа имеют одинаковый супер шингл их сразу клеят.
Недостатки:
1. Нереально выбрать алгоритм, который с помощью одного контрольного значения находит два почти одинаковых документа.
2. Просто так Яша ничего не склеял, если бы склеял точно топик бы был. Все равно нужна перепроверка.
3. В одной статье я видел, что супер шингл даеться фиксированому значению шинглов и супер шинглов может быть несколько на документ.
4. В другой, что супер шингл один на весь документ.
Недостатки:
3. Если это просто чек сум шинглов. То он чувствителен к замене одного слова. Это просто длинный шингл, никому не нужный. Если у него какаето хитрая система, то чем он отличаеться от выборки? Зачем вводить новое слово?
4. см. недостатки 2.
Наиболее реальный алгоритм расчета супер шинглов:
I. Считаеться маленькие шинглы, находяться самые редкие. И с некоторой погрешностью количество кажого редкого шингла записываеться в супер шингл. Погрешность позволяет лучше находить подозрения на дубли.
Что то вроде этого.
II. Никаких супер шинглов нет Яша нас обманывает
Расчет выборки шинглов:
Из статей понятно, что на каждый документ находятиться выборка из 85 шинглов. Как она находиться:
S1...Si - шинглы
F1...F85 случайные функции расчета контрольных сумм выборок. Функции постоянные, но сгенерированы на шару. Т.е. для двух документов функции одинаковые.
V1...V85 - шинглы выборки
----------------
V1= MIN(F1(S1), ... F1(Si))
...............................
V85 = MIN (F85(S1), ... F85(Si)).
---------------------------
Сравнение документов происходит по этим в худшем случае 85 раз.
первый док V1 == V1 второй док.
Это шинглы и их выборка. Не могу понять, что есть супершинглы.
Люди добрый еще одного не могу понять, кто и за что поставил мне за этот пост -91 репутации? Хотя бы коментарий написал :(.
Расписал много инфы по шинглам которые нашел в 5ти статьях. Как считаються их выборки. По ним проходит самая жесткая проверка. Хотел написать, что дают эти расуждения на практике... Теперь боюсь... Писать или нет?
Поэтому на практике часто над набором шинглов документа считают еще одну контрольную сумму, так называемый "супершингл". http://www.spamtest.ru/document.html?id=0032
Спасибо за ссылки, но я их все перечитал до создания топика. Но не могу понять зачем супершинглы нужны.
Действительно непонятно, они ведь только четкие копии ловить будут...
конечно писать!!! Чего боитесь-то?
наверное, человек не из смелых...