Forum Webscript.Ru

Программирование => Теория, алгоритмы и стандарты => Тема начата: Greg от 23 Мая 2006, 09:11:35

Название: свой поисковик
Отправлено: Greg от 23 Мая 2006, 09:11:35
столкнулся вот с какой проблемой: сделал что-то вроде паука, который ищет все ссылки на странице, добавляет их массив, а индексатор потом уже по этим ссылкам ходит и запрашивает содержимое документа и т.д.

однако в статистике сайта он не откладывается как поисковик, т.е. не идентифицируется как гугль, яндекс и т.д. это и понятно, что он не идентифицируется... а что вот нужно сделать, чтобы он представлялся серверу как поисковик? насколько я понимаю, нужно впехнуть какие-то заголовки, но какие?
Название: свой поисковик
Отправлено: CGVictor от 23 Мая 2006, 13:53:39
Greg
У каждого поискового бота есть заданное значение User-agent в запросе.
Смотреть в FAQ поисковиков.
Название: свой поисковик
Отправлено: Greg от 26 Мая 2006, 10:21:25
потом, как я понимаю, можно будет "выудить" заходы своего же поисковика по user-agent?
Название: свой поисковик
Отправлено: CGVictor от 26 Мая 2006, 12:20:58
Greg
Смотря что там за статистика. Некоторые смотрят по списку агентов (тогда надо этот список найти и свой туда добавить), некоторые к тому же смотрят на наличие "bot" в строке агента... В общем, it depends.
Название: свой поисковик
Отправлено: Greg от 26 Мая 2006, 16:03:43
CGVictor
awstat

не знаешь, как он работает и где можно прописать?
Название: свой поисковик
Отправлено: CGVictor от 26 Мая 2006, 18:12:54
Greg
Что-то связанное с robot.pm...точнее не скажу.
Название: свой поисковик
Отправлено: sunswordrie от 09 Июня 2006, 20:01:38
Greg
Тоже задался целью написать агента для http , не подскажешь , как его разрабатывал и на чём?