Общие > Веб-технологии

алгоритмы поискового робота

<< < (2/2)

Uzver:
паук есть и работает, спайдер... ну скачать страницу и очистить ее от мусора это помоему не тема для обсуждения, базы индексов в принципе тоже расписаны уже чуть ли не побуквенно, поиск по индексам тоже, вопрос стоит в ранжировании страниц найденных по запросу, в определении их релевантности запросу, тобиш расчет веса страницы, расчет веса ресурса коему принадлежит страница, расчет веса слов найденных на странице... не хочется выпустить в мир еще одну "частную страницу" которой никто не будет пользоваться

Uzver:
P.S. и еще вопрос вдогонку, в настоящий момент Crawler работает с двух IP адресов (без использования Crawler Agent) используя одну базу (хранятся уже найденные ссылки) со случайной выборкой исследуемой страницы, быть может имеет смысл "заставить" Crawler работать вширь а не вглубь? То есть в первую очередь исследовать первый, второй и быть может третий уровень известных сайтов и только потом идти в глубь? У кого какие идеи на это счет?

Yukko:
Uzver
мысли ушли в ПС :)

Uzver:

--- Цитировать ---Yukko:
мысли ушли в ПС
--- Конец цитаты ---

Единственный способ повысить интеллект - считать допустимыми любые мысли.
не помню точно кто сказал, кажется некто Кидс году этак в 19... но считаю эту фразу актуальной до сих пор и стараюсь ее придерживаться, поэтому мысли в студию плиз :-)

Навигация

[0] Главная страница сообщений

[*] Предыдущая страница

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 
Перейти к полной версии