- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
В общем, такие дела. С 17 августа я вышел на работу в Корпорации РБС (известные вам всем http://www.bdbd.ru/ :) Заниматься буду разными вещами, типа тарифами, аналитикой, оптимизацией работы и пр.
Начнем с аналитики :)
Я являюсь идеологом изложенного ниже, т.е. пишу ТЗ и буду обрабатывать результаты.
***
Корпорация РБС разрабатывает инструмент для оптимизаторов и заказчиков. Этот инструмент будет иметь 2 части:
1. Выкачивание графа ссылок между СТРАНИЦАМИ Рунета. Будет расчет по этому графу нескольких версий пейджранка (для разных d) и использование его для общественно полезных целей, как-то: оценка площадок, каталогов, предварительная оценка бюджетов :)
2. По 60 тыс. популярных (частотных по рамблеру) словосочетаниям будет выкачиваться топ выдачи, по позициям выдачи – беклинки со словами, по беклинкам, кроме PR, будет храниться куча параметров. Вот кусок ТЗ:
3) По каждой позиции в результатах поиска надо хранить:
1. сами страницы (позиции) и морды сайтов (код). Без учета пересечений это 6,000,000 страниц, но получится гораздо меньше
2. по списку бэклинков на страницы и морды раздельно:
- на сайт (все страницы сайта, включая зеркала)
- на сайт (все страницы сайта, включая зеркала) с ключевым словом
- на сайт (все страницы хоста, не включая зеркала)
- на сайт (все страницы хоста, не включая зеркала) с ключевым словом
- на страницу (морду), точный URL
- на страницу (морду), точный URL с ключевым словом
- число страниц, найденных на сайте по запросу
- число страниц на сайте
- классификацию страницы (морда, статья, форум, гостевуха, новость, каталог, обмен ссылками и др.)
- классификацию сайта (развлекательный, магазин товаров, услуги, новостной, корпоративный-визитка, информационный, сервис, партнерка за переходы и др.)
3. тИЦ, PR, WR
4. - Title
- сниппет
-Hx (текст заголовка самого высокого уровня)
- размер страницы (байт) и число слов в тексте
- число встречающихся ключcлов в тексте страницы и в Hx
- рубрику Яндекс каталога и DMOZ
- дату последней индексации и дату появления в индексе
- количество найденных страниц с сайта
4) По каждому бэклинку надо хранить:
1. сами страницы, где находятся бэклинки (код)
2. число ссылающихся по слову на сайт с беклинком
3. число ссылающихся на сайт с беклинком, тИЦ, PR, WR
4. - Title
- Hx (текст заголовка самого высокого уровня)
- размер страницы (байт) и число слов в тексте
-число байт перед ссылкой и число слов перед ссылкой
- число встречающихся ключcлов в тексте страницы и в Hx
- рубрику Яндекс каталога и DMOZ
- дату последней индексации, дату появления в индексе, дату появления в беклинках этой страницы по этому ключслову
- количество страниц на сайте
- кол-во страниц с ключсловом на сайте
- число внутренних и внешних ссылок со страницы
- порядковый номер ссылки
- текст ссылки точный
- классификацию страницы и классификацию сайта (как в п.3)
Разные внешние данные обновляются: 1 раз в день, 1 раз в неделю, 1 раз в месяц или вручную по требованию.
Сервис будет иметь 3 части: внутреннюю, коммерческую, бесплатную (с урезанными возможностями). По всем данным, включая историю, можно будет строить различные отчеты.
Ориентировочный срок реализации проекта – ноябрь этого года.
Теперь, собственно, зачем я об этом пишу. Всем (почти? :)) желающим будет предоставлена возможность поиграться с этими данными или их частью. Построить интересующие их отчеты, посмотреть на циферки.
Для этого мы открываем регистрацию экспертов на странице http://www.bdbd.ru/experts.htm (нужно ввести кодовое слово rbscorp и здешний ник). Эксперты смогут принимать участие в пополнении базы (добавлять свои ключслова) и иметь доступ к расширенному инструментарию, доступному кроме экспертов только для внутреннего использования.
Предложения по сервису принимаются в т.ч. здесь.
А я уже давно хотел такое написать, все времени небыло и статистики много качественной :(
p.s. А скрипт хороший, если это будет то что я думаю, то классный инструмент.
-я еще раньше хотел :)
Респект. Если задуманное будет реализовано в том виде, в котором описано (если я это описанное правильно понял), то сервис будет весьма и весьма успешен и востребован.
::
А скрипт хороший, если это будет то что я думаю, то классный инструмент.
Это не скрипт, а 10-20Террабайтная база с комплексом более 100аналитических инструментов.
Хотел бы еще добавить от себя, что в разделе аналитических инструментов для экспертов и для внутреннего использования (в коммерческой и бесплатной версиях этого не будет) будет доступен очень простой язык составления АБСОЛЮТНО ЛЮБЫХ аналитических отчетов, чем-то схожий на SQL язык запросов.
Таким образом имея экспертный доступ можно будет получить совершенно любую информацию, о которой только можно подумать, составить самый извращенный отчет по тому или иному сайту или по тому или иному слову.
Сайт: вводим сайт и получаем список из тех 60,000 слов по его позициям в пределах 100, найденным страницам, бэклинкам на эти страницы, % содержанию тех или иных слов в бэклинках или даже % содержания ключевых слов на страницах, на которых установлены бэклинки
Слово: получаем набор 100 сайтов, их бэклинки, % содержания ключевого слова в бэклинках, % уникальных ссылок, % содержания ключевых слов на страницах бэклинка раздельно по каждой из 100 позиций результата поиска
При этом я привел лишь то, что смог придумать находу пока писал пост. Сделать можно будет абсолютно любой отчет, потому как у вас есть:
1) Позиции по словам
2) Бэклинки по каждой позиции
3) Помимо этого есть сами страницы, которые содержат бэклинки или находятся в выдаче по тем или иным словам
По этому "извращаться" можно будет как только угодно на языке сходном с синтаксисом SQL запросов, ну или пользоваться стандартными отчетами и отчетами, которые составили другие эксперты!
PS Ну и по первой части - нам будет известен показатель вИЦ всех сайтов Рунета :) Тоже в принципе не очень бесполезная информация! :)
Жень, а та часть, которая коммерческая, для экспертов будет бесплатная? :) И какие примерно тарифы будут?
4) По каждому бэклинку надо хранить:
А количество внутренних и внешних ссылок?
Жень, а та часть, которая коммерческая, для экспертов будет бесплатная? :) И какие примерно тарифы будут?
А количество внутренних и внешних ссылок?
Сохраняется страница, которая найдена в результатах поиска и сохраняются все страницы, на которые установлен бэклинк на найденную страницу. По этому делаете экспертный отчет и получается все про исходящие ссылки как с найденной страницы, так и по бэклинкам. Можно например посчитать усредненную статистику по тому сколько содержится всего ссылок на тех страницах на которых установлены бэклинки на сайт, находящийся на 1-м месте или среднее по 100 сайтам и т.д.
Т.е. вытащить можно будет любую информацию которую только захочется. Именно для этого и нужны эксперты, потому как отчетов можно придумать хоть 1,000,000. Есть % от Рунета, ограниченный 60,000 словами а далее можно делать все то, что могут делать сами поисковые системы. Более того, можно делать в пределах 100 позиций свою выдачу, составив свой коэффициент ранжирования. Путем проб и ошибок можно сделать выдачу на 99% совпадающую с выдачей поисковой системы и таким образом вычислить используему формулу релевантности.
Интересно? :)
Да и забыл сказать, что 60,000 слов это старт, а далее слова будут добавляться экспертами.
Ну и не забудьте, что база будет хранить всю историю во времени. Абсолютно любой аналитический отчет можно будет еще построить с историей развития от апдейта к апдейту. Предполагается, что каждые 6-12 месяцев база будет расти в 2 раза :)
Интересно?
Параллельно свой поисковик не запускаете?
Параллельно свой поисковик не запускаете?
Ну пока вроде об этом ничего не было написано? :) Мы же % с Рунета выкачиваем - какой поисковик!!! Вы ошиблись! :)
Для вИЦ конечно придется выкачать весь Рунет, но опять же таки сохранять мы его не собираемся. Все в пределах только 60,000 слов, 100 сайтов в выдаче и всех бэклинков. Думаю, что это не более 10% от Рунета.
Для вИЦ конечно придется выкачать весь Рунет, но опять же таки сохранять мы его не собираемся. Все в пределах только 60,000 слов, 100 сайтов в выдаче и всех бэклинков. Думаю, что это не более 10% от Рунета.
Зачем всё? Достаточно и 20% (наиболее качественной части).
Зачем всё? Достаточно и 20% (наиболее качественной части).
А вот по этой части (я не знаю 20% или 5% получится) как раз мы сможем давать более качественную выдачу, потому как сможем учесть при ранжировании все то, что было описано, НАПРИМЕР (не значит что будем), вот здесь: /ru/forum/67612
Потому как нагрузка от посетителей у нас будет почти 0-я, сайтов в индексе меньше, страниц меньше, апдейты делать можно не так часто ну и т.д.
:)