пятница, 17 октября 2008 г.

Добавляем новую поисковую систему в Hrefer.

Как видите, возможности программ расширяются с каждым днем.
Сегодня я расскажу, как добавить любую поисковую систему в хрефер.
Для примера я взял поисковую систему Rambler.
Открываете папку, где установлен Hrefer (если его у вас нет, то его можно приобрести на сайте BotMaster.ru ВНИМАНИЕ: Hrefer входит в программный комплекс XRumer).
Находим там файл с именем engines.ini открываем его и видем следующее:

1-Заголовок поисковой системы;
2-Домен поисковой системы;
3-Шаблон куда подставлять ключевые слова;
4-Шаблон для парсинга ссылок;
5-Сколько всего листать страниц;
6-Шаблон для перехода на следующую страницу ;
7-Шаблон для перехода на следующую страницу если по первому варианту не что не найдено.
Ну что приступим к обучению.
Открываем Rambler вводим любой поисковой запрос я например ввел avto.
И видим следующее:

В адресе было несколько доп. Значений я их убрал, чтоб они нам не мешались.
Домен (поддомен) нужно писать тот который используется при поиске.
С поисковым шаблоном, думаю все понятно. Мы должны вместо ключевого слова вставить [QUERY]
Из этих данных мы можем заполнить следующее:
[Rambler]
Hostname=http://nova.rambler.ru
Query=search?query=[QUERY]
Далее открываем исходный код странице.

Как видим, адреса ресурсов хранятся в определенном коде:
<#div class="info">Адрес ресурса/»
Из этого сделаем шаблон для грабинга ссылки.
<#div[...][LINK]#
[...] – это что нужно пропустить.
[LINK]- это то что программа посчитает за ссылку.
Также можно грабить ссылку из Title как вам угодно, но тогда шаблон будет другой.
TotalPages указываем равное 100. Можно указать больше можно меньше на ваше усмотрение.
Теперь осталось сделать шаблон перехода на следующую страницу.
Снова просматриваем исходный код страницы .

И из этого указываем следующий шаблон:
nextPage" href="[LINK]">
Вместо адреса страници ставим [LINK].
В NextPage2 указываем тот же шаблон что и в первом случаи
И вот что у нас получилось:
[Rambler]
Hostname=http://nova.rambler.ru
Query=search?query=[QUERY]
LinksMask=<#div[...][LINK]
TotalPages=100
NextPage=nextPage" href="[LINK]">
NextPage2=nextPage" href="[LINK]">

Символ #- нужно убрать из всего текста