Forum Webscript.Ru
Программирование => PHP => Тема начата: Sniper от 07 Января 2005, 11:55:58
-
Спайдер мне для индексации контента и дальнейшего поиска.
У меня сейчас часть контента в базе, а часть в файлах.
В базе так же поля с индексами по которым спайдер определяет раздел сайта и генерирует соотв. ссылки.
Спайдер смотрит в базу, берет из нее что есть (заголов новости, название рабдела), смотрит на индекс и пересыпает соответствующий файл. Убирает оттуда теги, и заносит всю "кашу" в таблицу search.
А мне хочется так сделать, чтобы спайдер вел себя как спайдер настоящий.
"Ходил" по сайту, "брал" контент, и заносил бы в таблицу контент и ссылку. Как на Yandex\'е :-).
То есть обойти процедуру запросов к базе и пересыпания файлов. Вот.
Вроде бы это хождение имитируют Header\'ом??
Подскажите, плиз.
-
нет, Header\'ом никакого хождения имитировать нельзя.
-
непонятно, каким образом будет обойдена процедура пересыпания файлов.
непонятно, чем запросы к сайту лучше запросов к базе.
-
нет, Header\'ом никакого хождения имитировать нельзя.
А чем?
непонятно, каким образом будет обойдена процедура пересыпания файлов.
непонятно, чем запросы к сайту лучше запросов к базе.
Уверен, что спайдер, например Yandex\'а не пересыпает файлы на серверах.
Он ведь как-то ходит по нашим ссылкам?
-
Sniper:
А чем?
Это главный вопрос.
На него надо знать четкий ответ до того, как вообще даже думать о пауках.
Надо разобраться с протоколом HTTP
Sniper:
Уверен, что спайдер, например Yandex\'а не пересыпает файлы на серверах.
Он ведь как-то ходит по нашим ссылкам?
Файлы - не пересыпает. А какая разница, если тот же самый файл выводится на страницу. страницу он и индексирует. Ракая разница - что индексировать - файл или страницу, если содержание одинаковое?