Forum Webscript.Ru

Общие => Веб-технологии => Тема начата: Uzver от 10 Февраля 2006, 19:08:57

Название: алгоритмы поискового робота
Отправлено: Uzver от 10 Февраля 2006, 19:08:57
Усем драсте.
Есть большое желание сделать что-то вроде поискового сервера. Не гуглю конечьно, просто в пику нехорошим ребятам из bigmir.net и meta.ua. Уж больно не качественно они работают, а альтернативы им при поиске исключительно по Украине нет как таковой. Уточню сразу, что поисковый сервер будет ориентирован исключительно на Украину, не на мир.

Из имеющихся на сегодняшний день ресурсов, выделенный сервер, с трафиком анлиметед подключенный к оптоволокну (не смейтесь пожалуйста, для Украины, если вы не провайдер и не финансовый монстр это очень критичный момент). Есть общая теория работы поискового механизма, думаю что ничего нового здесь изобретено не было поэтому освещать этот момент не буду.

Первоначальная реализация планируется на php. Почему именно php? Ближайшая цель это создать рабочий прототип в котором будет реализован алгоритм работы, и который докажет работоспособность оного. Тогда уже можно будет перейти к реализации сервера на других платформах и увеличении технической базы. Оговорюсь сразу, это частный проект, он поддерживается и финансируется из собственного кармана без привлечения внешних инвестиций.

А теперь собственно сам вопрос:
Как лучше организовать обход страниц для последующего их внесения в индексную базу. Как лучше учитывать вес страницы, ее релевантность, количество ссылок на нее, вес ресурса которому принадлежит страница и т.д. и т.п.

Если кто-то уже сталкивался, или имеет теоретическую базу, или просто мысли, делитесь, не стесняйтесь, родина вас не забудет:-). Если есть вопросы, спрашивайте, уточняйте, буду стараться отвечать. Если у кого то есть предложения, иле желание поучаствовать в проекте, также милости просим, в общем буду крайне признателен за любую информацию, даже за ссылку на толковый ман :-).
Название: алгоритмы поискового робота
Отправлено: Yukko от 11 Февраля 2006, 02:37:59
Меня всегда поражали украинцы своей любовью ко всему, что выпущено в Украине. Это уже четвертый или даже пятый поиск, который будет реализован в моей родной стране, если еще будет реализован.

Uzver
Думаю, что изначально стоит задать абсолютно такой же запрос в Яндекс:
http://www.yandex.ru/yandsearch?rpt=rad&text=%E0%EB%E3%EE%F0%E8%F2%EC%FB+%EF%EE%E8%F1%EA%EE%E2%EE%E3%EE+%F0%EE%E1%EE%F2%E0

а также почиать форум:
http://forum.searchengines.ru
Название: алгоритмы поискового робота
Отправлено: CGVictor от 11 Февраля 2006, 11:38:06
[off]Yukko
Всецело согласен.[/off]

Uzver
Яндекс может вполне сносно искать по ресурсам UA.
Название: алгоритмы поискового робота
Отправлено: Uzver от 11 Февраля 2006, 13:39:54
За ссылки спасибо, но они уже давно изучены. Касательно ридной неньки Украины, поиск по Украине действительно актуальный вопрос. Мета с ее тяжеловесностью кучей рекламы в результатах поиска и индексом обновляемым минимум раз в пол года… и бигмир с чуть меньшим количеством рекламы … Касательно яндекса, не сносно он ищет по Украине, также как и гугля, не знаю уж почему но при поиске по Украине они крайне редко выдают нужный результат, обычно результат получают долгим копнением над метой или в последнее время бигмиром.
Идея состоит именно в том чтобы сделать максимально легкий и быстро обновляемый сервис. Обновление базы должно проходить как максимум раз в 2 месяца. В настоящий момент уже существует тестовая версия crawler-ра который за 20 дней обошел базу примерно из 32 тыс. сайтов. (база была предварительно актуализирована).
А сюда я пришел за мнением людей, за возможными советами и за любыми высказанными мыслями. Поэтому заранее спасибо всем ответившим, даже за негативные ответы.
Название: алгоритмы поискового робота
Отправлено: Yukko от 11 Февраля 2006, 20:05:29
Uzver
я так понимаю, уже паучок есть, нужно теперь что-то с информацией делать?
Название: алгоритмы поискового робота
Отправлено: Uzver от 11 Февраля 2006, 21:54:10
паук есть и работает, спайдер... ну скачать страницу и очистить ее от мусора это помоему не тема для обсуждения, базы индексов в принципе тоже расписаны уже чуть ли не побуквенно, поиск по индексам тоже, вопрос стоит в ранжировании страниц найденных по запросу, в определении их релевантности запросу, тобиш расчет веса страницы, расчет веса ресурса коему принадлежит страница, расчет веса слов найденных на странице... не хочется выпустить в мир еще одну "частную страницу" которой никто не будет пользоваться
Название: алгоритмы поискового робота
Отправлено: Uzver от 11 Февраля 2006, 22:04:56
P.S. и еще вопрос вдогонку, в настоящий момент Crawler работает с двух IP адресов (без использования Crawler Agent) используя одну базу (хранятся уже найденные ссылки) со случайной выборкой исследуемой страницы, быть может имеет смысл "заставить" Crawler работать вширь а не вглубь? То есть в первую очередь исследовать первый, второй и быть может третий уровень известных сайтов и только потом идти в глубь? У кого какие идеи на это счет?
Название: алгоритмы поискового робота
Отправлено: Yukko от 12 Февраля 2006, 01:36:42
Uzver
мысли ушли в ПС :)
Название: алгоритмы поискового робота
Отправлено: Uzver от 12 Февраля 2006, 01:59:07
Цитировать
Yukko:
мысли ушли в ПС

Единственный способ повысить интеллект - считать допустимыми любые мысли.
не помню точно кто сказал, кажется некто Кидс году этак в 19... но считаю эту фразу актуальной до сих пор и стараюсь ее придерживаться, поэтому мысли в студию плиз :-)