Forum Webscript.Ru

Программирование => PHP => Тема начата: Sniper от 07 Января 2005, 11:55:58

Название: подскажите алгоритм spyder\'а по своему сайту
Отправлено: Sniper от 07 Января 2005, 11:55:58: Спайдер мне для индексации контента и дальнейшего поиска.

У меня сейчас часть контента в базе, а часть в файлах.
В базе так же поля с индексами по которым спайдер определяет раздел сайта и генерирует соотв. ссылки.

Спайдер смотрит в базу, берет из нее что есть (заголов новости, название рабдела), смотрит на индекс и пересыпает соответствующий файл. Убирает оттуда теги, и заносит всю "кашу" в таблицу search.

А мне хочется так сделать, чтобы спайдер вел себя как спайдер настоящий.

"Ходил" по сайту, "брал" контент, и заносил бы в таблицу контент и ссылку. Как на Yandex\'е :-).
То есть обойти процедуру запросов к базе и пересыпания файлов. Вот.

Вроде бы это хождение имитируют Header\'ом??
Подскажите, плиз.
Название: подскажите алгоритм spyder\'а по своему сайту
Отправлено: Меняздесьдавнонет от 07 Января 2005, 13:04:13: нет, Header\'ом никакого хождения имитировать нельзя.
Название: подскажите алгоритм spyder\'а по своему сайту
Отправлено: Меняздесьдавнонет от 07 Января 2005, 13:05:58: непонятно, каким образом будет обойдена процедура пересыпания файлов.
непонятно, чем запросы к сайту лучше запросов к базе.
Название: подскажите алгоритм spyder\'а по своему сайту
Отправлено: Sniper от 07 Января 2005, 14:41:49: Цитировать
нет, Header\'ом никакого хождения имитировать нельзя.

А чем?

Цитировать
непонятно, каким образом будет обойдена процедура пересыпания файлов.
непонятно, чем запросы к сайту лучше запросов к базе.

Уверен, что спайдер, например Yandex\'а не пересыпает файлы на серверах.
Он ведь как-то ходит по нашим ссылкам?
Название: подскажите алгоритм spyder\'а по своему сайту
Отправлено: Меняздесьдавнонет от 07 Января 2005, 15:47:07: Цитировать
Sniper:
А чем?

Это главный вопрос.
На него надо знать четкий ответ до того, как вообще даже думать о пауках.
Надо разобраться с протоколом HTTP

Цитировать
Sniper:
Уверен, что спайдер, например Yandex\'а не пересыпает файлы на серверах.
Он ведь как-то ходит по нашим ссылкам?

Файлы - не пересыпает. А какая разница, если тот же самый файл выводится на страницу. страницу он и индексирует. Ракая разница - что индексировать - файл или страницу, если содержание одинаковое?