Релевантность контента страниц запросу для Яндекса Эксперимент по Минычу

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
30944

Сейчас еще раз проверяю как Яндекс ранжирует страницы по контенту. Думаю многим интересны будут результаты. Поэтому выкладываю.

Опыт номер 1.

На бесплатном хостинге два одностраничных сайта. Ссылок на эти сайты не существует ни внутренних, ни внешних. Поэтому ВИЦ можно считать одинаковым.

Каждый сайт содержит один и тот же набор слов (около 300), которые встречаются по одному разу (но перемешаны в случайном порядке) плюс на первом сайте одно слово встречается два раза, на другом другое слово встречается три раза.

Подается запрос Яндексу:

( слово1::вес1 | слово2::вес2)

Вначале фиксируется вес1 и меняем вес2. Находим такой вес2ступ, что для всех вес2<=вес2ступ первой выдается страница со словом слово1, а для всех вес2>вес2ступ первой выдается страница со словом слово2.

Затем эта процедура повторяется, но уже фиксируется вес2 на найденном значении вес2ступ и находится такая же грань для вес1: вес1ступ

Затем опять фиксируется уже вес1 на найденном вес1ступ и меняется вес2....

Эти процедуры позволяют нам измерить величины ступенек Миныча....

Первым делом испытаем на тех словах (1 и 2), которые на данных страницах встречаются по одному разу.

На скриншоте результаты измерений:

Видим что величины ступенек Миныча одинаковы, если брать формулу от веса sqrt(ln(весNступ+0.5))

Так как на страницах нет слов, число которых превышает 7, то тошноты страниц одинаковы.

Релевантность можно определить формулой:

Релевантность ~ sqrt(ln(вес)) (плюс "округление" до величины кратной целому числу из-за ступенек Миныча)

Красным цветом - это не грань ступеньки, а начальный вес (надо же начинать с какого-то веса весь эксперимент).

jpg clip5.jpg
Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#1

Опыт номер два.

Опять два одностраничных сайта с теми же словами однословками случайным образом перемешанных. Но на одном уже 30 слово1, на другом 40 слово2

Повторяем ту же процедуру что и в первом посте.

Изменения: изменились положения ступенек и их величина.

Причем с точностью до 9-го знака величины ступенек стали:

для страницы с 30 словами:

ступенька30=sqrt(30/7)*ступенька7

для страницы с 40 словами:

ступенька40=sqrt(40/7)*ступенька7

Ступенька7 это ступенька для страниц, с самым частым словом не более 7.

Релевантность ~ sqrt(ln(вес слова))/sqrt(tf_max)

По Минычу sqrt(tf_max) это тошнота, для страницы с 30 словами (самое частотное слово) tf_max равно 30, с 40 словами (самое частотное слово) tf_max равно 40.

jpg clip6.jpg
R
На сайте с 17.07.2006
Offline
32
#2

пробовали ли вы не 300, а 600 слов например, не отодвигалась ли тошнота с 7 к скажем 10 словам?

и правильно ли надо понимать - превысил 7 слов - сразу в 3 раза веса потерял?

Каширин
На сайте с 03.01.2004
Offline
1018
#3

ХренРедькиНеСлаще, какие выводы из опытов?

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#4
Romario:
пробовали ли вы не 300, а 600 слов например, не отодвигалась ли тошнота с 7 к скажем 10 словам?
и правильно ли надо понимать - превысил 7 слов - сразу в 3 раза веса потерял?

Пробовали на случайных страницах в интернете (но выбирали так, чтобы ВИЦ был минимальным). Пока все укладывается в схему: самое частотное слово определяет тошноту однозначно. Единственная сложность: учет лемматизации (насчет лемматизации здесь: http://romip.narod.ru/romip2006/03_yandex.pdf), т.е. учет всех словоформ одного слова, приходится ручками лемматизировать.

Превысил 7 слов, допустим самое частотное слово на странице встретилось N раз , тошнота стала равной sqrt(N/7). Подтвеждается с точностью до 10 знака.

Каширин:
ХренРедькиНеСлаще, какие выводы из опытов?

Тошнота рулит для всех ВИЦев и вклад ее не меньше чем ВИЦ (Хотя это две стороны медали, один множитель ВИЦ, а тошнота - делитель.

Второе плотность ключевика на странице для большого Яндекса - это МИФОЛОГИЯ (на сегодня)..

Р
На сайте с 23.05.2006
Offline
258
#5
ХренРедькиНеСлаще:
Второе плотность ключевика на странице для большого Яндекса - это МИФОЛОГИЯ (на сегодня)..

Хороша мифология, если больше 7 слов на странице, то релевантность запросу снижается, я правильно понял? :)

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#6
Разработчик:
Хороша мифология, если больше 7 слов на странице, то релевантность запросу снижается, я правильно понял?

Неправильно поняли (вроде бы).

На странице может быть и 100 и 1000 и 5000 слов, но тошнота зависит (и релевантносмть соответственно) не от общего числа слов на странице!!!!! А от числа самого частотного слова на странице. А это число никак не связано с общим числом слов на странице!.

Антон Лавеев
На сайте с 31.10.2005
Offline
425
#7
ХренРедькиНеСлаще:
Неправильно поняли (вроде бы).

На странице может быть и 100 и 1000 и 5000 слов, но тошнота зависит (и релевантносмть соответственно) не от общего числа слов на странице!!!!! А от числа самого частотного слова на странице. А это число никак не связано с общим числом слов на странице!.

То бишь есть текст из 5000 знаков. Предположим, что в нем встречаются слова: "жопа", "валенки", "акваланг", "газоэлектрофикация". При этом все эти слова встречаются одинаковое количество раз... Продолжите мысль? ...

☠️☠️☠️
Р
На сайте с 23.05.2006
Offline
258
#8
ХренРедькиНеСлаще:
Неправильно поняли (вроде бы).

На странице может быть и 100 и 1000 и 5000 слов, но тошнота зависит (и релевантносмть соответственно) не от общего числа слов на странице!!!!! А от числа самого частотного слова на странице. А это число никак не связано с общим числом слов на странице!.

Значит я правильно понял (всё-таки) :)

Но почему именно "семь"? Разве адекватна подобная привязка к количеству? 😮

MiRaj
На сайте с 03.07.2006
Offline
509
#9

Разработчик, 7-ка получена экспериментально.

Посмотрите предыдущие темы ХРНС, там все описано.

Правда в моих экспериментах получилось 8+-2 - выборка маловата :)

Муркетолог. 100 пресс-релизов с прямыми ссылками за 150 баксов? Легко! (http://b2blogger.com) Статейный маркетинг - лучшее лекарство от Минусинска! (http://miralinks.ru)
ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#10
Разработчик:
Значит я правильно понял (всё-таки)
Но почему именно "семь"? Разве адекватна подобная привязка к количеству?

Семь это число введенное Яндексом с потолка. Иначе страницы, на которых было бы всех слов по одному слову получили бы значительный перевес. Мы проверили. До тех пор пока самое частотное слово не встречается больше 7 раз, тошнота не меняется, тошнота начинает меняться, начиная с частоты самого частотного слова, большего, чем 7. Еще раз подчеркну, что самое частотное слово (число этого слова на странице) и общее число слов на странице, это, как говорят в Одессе, две большие разницы!

Почему 7, спросите у Платона Щукина или Ильи Сегаловича (на конференции, я спросить не смогу, так как меня там не будет) :)

Да и потом.... Завтра они его установят равным 13... Своя рука владыка... Сегодня это было семь.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий