Общие > Веб-технологии
алгоритмы поискового робота
Uzver:
паук есть и работает, спайдер... ну скачать страницу и очистить ее от мусора это помоему не тема для обсуждения, базы индексов в принципе тоже расписаны уже чуть ли не побуквенно, поиск по индексам тоже, вопрос стоит в ранжировании страниц найденных по запросу, в определении их релевантности запросу, тобиш расчет веса страницы, расчет веса ресурса коему принадлежит страница, расчет веса слов найденных на странице... не хочется выпустить в мир еще одну "частную страницу" которой никто не будет пользоваться
Uzver:
P.S. и еще вопрос вдогонку, в настоящий момент Crawler работает с двух IP адресов (без использования Crawler Agent) используя одну базу (хранятся уже найденные ссылки) со случайной выборкой исследуемой страницы, быть может имеет смысл "заставить" Crawler работать вширь а не вглубь? То есть в первую очередь исследовать первый, второй и быть может третий уровень известных сайтов и только потом идти в глубь? У кого какие идеи на это счет?
Yukko:
Uzver
мысли ушли в ПС :)
Uzver:
--- Цитировать ---Yukko:
мысли ушли в ПС
--- Конец цитаты ---
Единственный способ повысить интеллект - считать допустимыми любые мысли.
не помню точно кто сказал, кажется некто Кидс году этак в 19... но считаю эту фразу актуальной до сих пор и стараюсь ее придерживаться, поэтому мысли в студию плиз :-)
Навигация
Перейти к полной версии