- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
в продолжение парсинга wordstat - парсер Яндекс.Каталога
выдирает все URL в указанной (задается параметром $cat) категории. для работы необходим iconv (на большинстве хостингов имеется).
благодарности принимаются в виде "спасибо", а также в виде повышения репутации, ну и в денежном эквиваленте:
p.s. возможна доработка, а также разработка любых аналогичных средств
Товарищи демоны, черкните тут строчку кода, чтобы 1) к списку сайтов добавлялся порядковый номер, и 2) чтобы сделать задержку запроса к Яндексу, в 2-3 секунды.
Автору - респект. :)
P.S. Желательно отдельной строкой, чтобы её закомментить можно было, при желании.
Яндексоиды позорники, до сих пор тэгом font пользуются... 21 век. Россия.
Товарищи демоны, черкните тут строчку кода, чтобы 1) к списку сайтов добавлялся порядковый номер, и 2) чтобы сделать задержку запроса к Яндексу, в 2-3 секунды.
Автору - респект. :)
P.S. Желательно отдельной строкой, чтобы её закомментить можно было, при желании.
Яндексоиды позорники, до сих пор тэгом font пользуются... 21 век. Россия.
это еще pda-версия. а на обычной вообще паттерн фиг напишешь - столько косяков =)
Ну обычную парсить в любом случае смысла нет, ни к чему лишний объем.
подводя итоги: 0р., 0$, 4 "+", 1 "-" с претензией, мол, зачем выкладывать в паблик?
ну хотя бы для того, чтобы на моих сайтах в sape были тематические ссылки.
А может кому-нибудь нужна вся база ЯКа? В формате MS Access или уже готовый MySQL-дамп для каталога eSyndiCat?
Прошу прощения
За что отвечает $delay = '3'; ? ( Програмёр я никакой )
И ещё один вопрос
Запустил скрипт Он спарсил 2000 урлов Хотя в разделе 6500.
Прошу прощения
За что отвечает $delay = '3'; ? ( Програмёр я никакой )
И ещё один вопрос
Запустил скрипт Он спарсил 2000 урлов Хотя в разделе 6500.
это задержка в секундах в переходе к следующей странице.
возможно яндекс заблокировал ip, попробуйте увеличить $delay.
если не поможет - в самом начале скрипта впишите строку:
Андрей, подскажите новичку как составляются паттерны (шаблоны) для парсинга. Я изучал ваши паттерны, но в них так и не разобрался. Весь интернет перерыл, но так и не нашёл. Не могли бы Вы скинуть ссылочку или вкратце рассказать о правилах составления паттернов?
$np_pat = '/<a target="_self" href="(.*)"><font color="#333333">след.<\/font><\/a>/U';
$yc_pat = '/<li>\n<font><a.*href="(.*)".*>.*<\/li>/isU';
$pattern = '/<table border="0" width="100%" cellspacing="0" cellpadding="5">(.*?)<\/table>/is';
$pattern2 = '/<tr class="tlist".*?><td><a href=".*?">(.*?)<\/a><\/td>[\n]*<td align=["]*right["]*>([\d]+)<\/td><\/tr>/is';
Объясните на этих примерах суть.
Заранее благодарю