Алгоритм поиска дублей статей

165

Vanich

14 февраля 2008, 16:56

12997

Будет ли Яша считать дублем статьи, в которых совпадает 10 предложений из 20??? Что-нибудь про алгоритм определения дублей известно, кроме общих понятий (поиск нечетких дублей, и т.д.).

Меня интересует, если он случайно сравнит статьи и именно те предложения, которые одинаковые, станет он дальше разбирать весь текст или забанит за плагиат???

П.С. Я не занимаюсь копипастом, а пишу генератор статей:drink:.

Онлайн-консультант для юридических, медицинских, компьютерных, туристических сайтов. Удобно пользователю, прибыльно вебмастеру. (http://webmasters.leadia.ru/?ref=bIoqZIaath) MONKEYWRITE ТЕПЕРЬ БЕСПЛАТНО (https://yadi.sk/d/Hd9mbvyzeMMfp)

42

ИМХО

14 февраля 2008, 20:38

#1

lstaticl:
Хмм....ничего особо определенного не нашел...СЕОгены, статьи по дублям...но ничего про Яшу и алгоритмы его проверки на плагиат.. 🚬

Странно, помню как-то читал там статью. Яндекс кстати определяет факт плагиата как раз по нечетким дублям...

Вот тогда для самых въедливых и подкованных, то что я видел на сайте HKey, только не переведенное на понятный неспециалистам язык.

Относительно недавнее исследование Сегаловича и Зеленкова

С уважением, Константин.

[Удален]

15 февраля 2008, 03:34

#2

Vanich, lstaticl, вот ответ от Яндекса в одной недавней теме:

Поисковая система Яндекс является лишь зеркалом русского Интернета и отображает ту информацию, которая общедоступна, поэтому мы не правомочны разбираться в вопросах плагиата. Если сайт прекратит свое существование, он будет удален из поисковой базы Яндекс автоматически. Также и отдельные статьи, если исчезнут с сайта, пропадут и из выдачи.
В любом случае благодарим Вас за подробное описание проблемы, мы передадим Ваше письмо в поисковый отдел для совершенствования алгоритмов распознавания заимствованных текстов.

Всё пока так, к сожалению.

А делать генераторы статей нехорошо - они при этом не очень хорошо пахнут.

51

bs1

15 февраля 2008, 04:37

#3

Вот здесь есть информация о технологиях сравнения текстов при определении дублей, правда на примере писем.

В частности:

Супершингл

Если для каждого письма отбирать более одного шингла, мы столкнемся с задачей отождествления документов, имеющих только несколько совпавших шинглов. Как бы мы ни сокращали число шинглов, все равно остается нетривиальный объем работы: данных очень много, даже если отбрасывать слишком редкие и слишком частые шинглы; не существует мгновенно работающего запроса по отождествлению документа и т.д.

Поэтому на практике часто над набором шинглов документа считают еще одну контрольную сумму, так называемый «супершингл». Очевидно тогда совпавшими будут считаться только документы с полностью совпавшими наборами шинглов. Однако при правильном подборе алгоритма и его параметров этого может оказаться достаточно и для работы неплохого детектора рассылок. Задача будет сводиться к вычислению всего одного числа и нахождению его в простейшей базе данных.
Замена супершингла: лексические сигнатуры

Совсем необязательно искать очень похожие документы по контрольным суммам и хитрым подстрочкам. Вполне успешно (по крайней мере в задачах веб-поиска) работают и лексические (основанные на словах) методы. Все разнообразие этих методов сейчас разбивают на два класса: локальные и глобальные лексические сигнатуры.

Если локальные сигнатуры рассматривают документ изолированно от коллекции и пытаются извлечь несколько характерных слов, основываясь только на их статистике в самом документе – TF (характерный пример: взять 5 самых частотных слов в документе длиннее пяти букв и упорядочить их по убыванию частоты), то глобальные либо пытаются при анализе документа учитывать информацию о глобальной статистике слова – IDF, либо, вообще выбирают опорные слова, опираясь исключительно на уже существующий инвертированный индекс (см. метод Яндекса на WWW2002). Для работы глобальных методов необходимо как-то считать общую статистику слов, что в интенсивной антиспамовой системе вполне возможно, например в рамках байесовского подхода.
Антидетекторы. Борьба борьбы с борьбой

Рассмотрим несколько типичных способов, с помощью которых спам-программы могут пытаться обходить детектор рассылки. Речь идет, конечно же, об автоматической генерации небольших изменений для каждого письма или группы писем.

Эту автогенерацию можно разделить на несколько категорий, механизм детектирования которых рассмотрим по отдельности.

1.

Генерация невидимого (или очень слабо видимого) текста средствами HTML-форматирования.

В этом случае, детектирование рассылок по контрольным суммам может быть полностью разрушено. Однако, чтобы добиться такого эффекта, спам-системам придется интенсивно пользоваться разными приемами HTML. Существует целый букет эвристик, связанных с оформлением письма, надежно распознающий эту технику. Это и отсутствие plain-text части и масса специфичных тегов HTML или нестандартные стилей CSS (например visibility: hidden). В любом случае здесь речь идет не столько о расчете сигнатуры, сколько о хорошем детекторе особенностей html-формата.
2.

Генерация видимого «мусора», то есть случайных буквенных цепочек, добавляемых в заголовки и текст письма.

В этом случае существенно помогает исключение из шинглов «несловарных» слов (по сути приравнивание их к пробелу). Обратите внимание что «словарь» в данном случае – это не канонический словарь русского языка Ожегова, а частотный словарь, накопленный по реальным письмам. Кстати, доля несловарных слов с таким «антидетектором» будет необычно высокой, а это может послужить отдельным неплохим признаком.
3.

Вставка пробелов в текст в случайных местах внутри слов и удаление их между словами. Против такого приема может помочь подсчет шинглов с гранулярностью в один символ с предварительно удаленными пробелами (все слова текста склеить в одну цепочку из букв, фиксированным окошком вычислить шинглы). Кроме того, доля «несловарных» слов с таким антидетектором тоже будет аномально высока.
4.

Вставка значащих слов в текст в случайных позициях. Этот вид антидетектора редок, так как затрудняет понимание текста письма. Генерировать же бесконечное количество синтаксически связанных перефразирований спамеры еще не научились. В любом случае с таким антидетектором остается надеяться на снижение эффективности спама и, соответственно, существенное повышение цены вхождения в этот рынок.

....

314

T.R.O.N

15 февраля 2008, 06:10

#4

Vanich,

Яша не занимается (ИМХО), такой глупостью, как поиском дубликатов. Их определние есть побочное явление.

PS на счет генераторов. Уподобоваримый текст получить всеравно не получится, а для создания мусора - цепей маркова достаточно на 110%. Нужно только грамотно подходить к первичному материалу и коэффициентам алгоритма.

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)

E

72

egoryich

15 февраля 2008, 06:11

#5

вот и весь "алгоритм"

Мы думаем над проблемой определения авторства в интернете, но сейчас чтобы
защитить свои авторские права Вам надо, видимо, обратиться к хозяевам
указанного сайта и к провайдеру, на сервере которого он находится. Если сайт
прекратит свое существование, он будет удален из поисковой базы Яндекс
автоматически.

--
С уважением, Платон Щукин
Служба поддержки Яндекс.Ру

314

T.R.O.N

15 февраля 2008, 06:21

#6

egoryich:
вот и весь "алгоритм"

Это высказывание "пионеров", ничего не имеющие общего с реальностью.

Все должны понимать, что решение об асторстве(если есть спор), на данный момент, может решить только суд. И если кто-то решает это без судебного решения, он сам может быть обвинен, по крайней мере в клевите.

42

ИМХО

15 февраля 2008, 06:40

#7

egoryich, (GoodWin), по-моему ТС спрашивал как яндекс производит автоматический поиск дублей а не решает вопрос об авторстве. Его интересует как предотвратить нахождение дублей, а не как доказать свое авторство после этого нахождения.

Vanich:
Будет ли Яша считать дублем статьи, в которых совпадает 10 предложений из 20??? Что-нибудь про алгоритм определения дублей известно, кроме общих понятий (поиск нечетких дублей, и т.д.).
Меня интересует, если он случайно сравнит статьи и именно те предложения, которые одинаковые, станет он дальше разбирать весь текст или забанит за плагиат???
П.С. Я не занимаюсь копипастом, а пишу генератор статей🍾.

WU

157

WSGU

15 февраля 2008, 06:47

#8

Если верить статьям самого яндекса, то для определения дублей они используют шинглы и тот факт, что уже имеется некоторая инвертированная база текстов. Я уже представлял на форуме пример работы этого алгоритма (см. тут).

[Удален]

15 февраля 2008, 07:08

#9

ИМХО:
egoryich, (GoodWin), по-моему ТС спрашивал как яндекс производит автоматический поиск дублей а не решает вопрос об авторстве. Его интересует как предотвратить нахождение дублей, а не как доказать свое авторство после этого нахождения.

Как можно что-то предотвратить, когда это "что-то", попросту говоря, ещё не существует?

Уважаемый, понимаете, - есть просто исследования, а есть их применение. Разницу ощущаете?

Вероятно, какие-то работы по определению текстовых дублей ведутся, но это только пока разработки. И не для "заплагиатчивания", а для ранжирования. И, скорее всего, яндексоиды и сами пока не очень хорошо представляют себе, как определённо и по месту это всё можно прикрутить к ранжированию.

Видите ли, друг мой, машинный комплексный анализ текстов - этой проблеме уже, можно сказать, полвека. О ней задумались сразу же как появились сами ЭВМ. И алгоритмы в этой области как таковые, за этот срок продвинулись весьма не намного. И не потому, что гениев таких пока не нашлось. А потому, что специалисты сами толком пока не поняли чёткие направления разработки таких алгоритмов. Как, зачем, для чего и каким образом.

Есть распознавание текстов на уровне алфавита, в котором всего 33 буквы. И есть 5-10 общеупотребительных шрифтов, которые используются в 90-95% случаев подготовки текстов. Всё это с успехом решают такие вещицы, как, например, ФайнРидер. Знаете, вероятно, не хуже других. Так вот, не стОит путать эти две вещи - распознавание текста, грубо говоря, букву за буквой и сравнительный анализ двух разных текстов или определение тематики текста.

Представляете, например, одна прога определила что вот эти два текста вроде как именно нечёткие дубли, а другая - что эти тексты вообще разной тематики?😆

314

T.R.O.N

15 февраля 2008, 07:20

#10

(GoodWin), Уговорили, беру ту-же травку.

(GoodWin):
Есть распознавание текстов на уровне алфавита, в котором всего 33 буквы. И есть 5-10 общеупотребительных шрифтов, которые используются в 90-95% случаев подготовки текстов. Всё это с успехом решают такие вещицы, как, например, ФайнРидер.

Вы подтвердили, что понятия не имеете о том, как работают подобные системы, как распозновательные, так и анализирующие.

WSGU, Вы конечно указали верно, но на фуруме существует традиция, обсуждать все, что хоть как-то касается темы.

Open AI тестирует память для ChatGPT

Что делать, если ваша email-рассылка попала в спам