Forum Webscript.Ru

Программирование => PHP => Тема начата: Perlita от 11 Октября 2002, 09:44:47

Название: Идентификация роботов
Отправлено: Perlita от 11 Октября 2002, 09:44:47
Подскажите плиз как поступить...

Скрпит обрабатывает файл со статистикой посещения сайта
Файл представляет собой строки вида:
....
10/07/02|64.68.82.71|/news/27052002.php|Unknown|
....
Можно ли в статистике не учитывать посещения поисковых роботов, т.е. как-то различать посещения броузера пользователя от посещений поисковых роботов.
Название: Идентификация роботов
Отправлено: ThE0ReTiC от 11 Октября 2002, 10:40:27
Отлавливай заходящего через $HTTP_SERVER_VARS["HTTP_USER_AGENT"]  Список всех пауков в инете есть. Ссылку не помню - дома лежит. :(
Можно воспользоваться get_browser() для человеческого представления записи User_Agent, но думаю, тебе это не надо.
Название: Идентификация роботов
Отправлено: Perlita от 11 Октября 2002, 10:50:46
Спасибо... суть понял. А по-другому никак, через куки каки-нибудь?
Название: Идентификация роботов
Отправлено: ThE0ReTiC от 11 Октября 2002, 11:02:01
Perlita
:):):):):):):)
Ну какие у робота куки.
Сам подумай...
Название: Идентификация роботов
Отправлено: Perlita от 11 Октября 2002, 11:07:07
Нуу да...  :) я и  подумал, что на этом сыграть можно. Т.е. так и идентифицировать робота
Название: Идентификация роботов
Отправлено: rembo от 11 Октября 2002, 11:26:30
Не ужели роботы так часто по сайту ходят? Если это так то можно как-то узнать сколько процентов хитов приходится на роботов?
Название: Идентификация роботов
Отправлено: Perlita от 11 Октября 2002, 11:50:53
Googlebot ходит каждый день, хитов получается когда как, когда 10%, когда и больше -) настоящее нашествие роботов
Название: Идентификация роботов
Отправлено: Меняздесьдавнонет от 11 Октября 2002, 12:24:31
Роботы часто ходят.
И я ндекс и гугля и другие.
Я, по началу, отлавливал по отсутствию загрузки картинок.
Но получается не очень верная картина - лучше уж все-таки, по сигнатурам.
Название: Идентификация роботов
Отправлено: ThE0ReTiC от 11 Октября 2002, 12:40:22
Perlita
http://www.searchengines.ru/stories.php?story=02/03/03/9055683
Правда не все
Название: Идентификация роботов
Отправлено: Tronyx от 11 Октября 2002, 13:08:13
Perlita я чем тебя $HTTP_SERVER_VARS["HTTP_USER_AGENT"] не устраивает?
Название: Идентификация роботов
Отправлено: Perlita от 11 Октября 2002, 14:33:15
спасибо за урль.
Tronyx просто думал, что есть более простой способ, чем проверка $HTTP_SERVER_VARS["HTTP_USER_AGENT"] со значениями из массива
Название: Идентификация роботов
Отправлено: Меняздесьдавнонет от 11 Октября 2002, 15:04:01
Ага, специальный заголовок в НТТР - "Я робот!".
Название: Идентификация роботов
Отправлено: Tronyx от 11 Октября 2002, 15:08:05
Цитировать
Tronyx просто думал, что есть более простой способ, чем проверка $HTTP_SERVER_VARS["HTTP_USER_AGENT"] со значениями из массива

Проще некуда.
Название: Идентификация роботов
Отправлено: Perlita от 12 Октября 2002, 19:01:35
http://www.robotstxt.org/wc/active/html/index.html - список 284 роботов