Forum Webscript.Ru
Общие => Веб-технологии => Тема начата: Uzver от 10 Февраля 2006, 19:08:57
-
Усем драсте.
Есть большое желание сделать что-то вроде поискового сервера. Не гуглю конечьно, просто в пику нехорошим ребятам из bigmir.net и meta.ua. Уж больно не качественно они работают, а альтернативы им при поиске исключительно по Украине нет как таковой. Уточню сразу, что поисковый сервер будет ориентирован исключительно на Украину, не на мир.
Из имеющихся на сегодняшний день ресурсов, выделенный сервер, с трафиком анлиметед подключенный к оптоволокну (не смейтесь пожалуйста, для Украины, если вы не провайдер и не финансовый монстр это очень критичный момент). Есть общая теория работы поискового механизма, думаю что ничего нового здесь изобретено не было поэтому освещать этот момент не буду.
Первоначальная реализация планируется на php. Почему именно php? Ближайшая цель это создать рабочий прототип в котором будет реализован алгоритм работы, и который докажет работоспособность оного. Тогда уже можно будет перейти к реализации сервера на других платформах и увеличении технической базы. Оговорюсь сразу, это частный проект, он поддерживается и финансируется из собственного кармана без привлечения внешних инвестиций.
А теперь собственно сам вопрос:
Как лучше организовать обход страниц для последующего их внесения в индексную базу. Как лучше учитывать вес страницы, ее релевантность, количество ссылок на нее, вес ресурса которому принадлежит страница и т.д. и т.п.
Если кто-то уже сталкивался, или имеет теоретическую базу, или просто мысли, делитесь, не стесняйтесь, родина вас не забудет:-). Если есть вопросы, спрашивайте, уточняйте, буду стараться отвечать. Если у кого то есть предложения, иле желание поучаствовать в проекте, также милости просим, в общем буду крайне признателен за любую информацию, даже за ссылку на толковый ман :-).
-
Меня всегда поражали украинцы своей любовью ко всему, что выпущено в Украине. Это уже четвертый или даже пятый поиск, который будет реализован в моей родной стране, если еще будет реализован.
Uzver
Думаю, что изначально стоит задать абсолютно такой же запрос в Яндекс:
http://www.yandex.ru/yandsearch?rpt=rad&text=%E0%EB%E3%EE%F0%E8%F2%EC%FB+%EF%EE%E8%F1%EA%EE%E2%EE%E3%EE+%F0%EE%E1%EE%F2%E0
а также почиать форум:
http://forum.searchengines.ru
-
[off]Yukko
Всецело согласен.[/off]
Uzver
Яндекс может вполне сносно искать по ресурсам UA.
-
За ссылки спасибо, но они уже давно изучены. Касательно ридной неньки Украины, поиск по Украине действительно актуальный вопрос. Мета с ее тяжеловесностью кучей рекламы в результатах поиска и индексом обновляемым минимум раз в пол года… и бигмир с чуть меньшим количеством рекламы … Касательно яндекса, не сносно он ищет по Украине, также как и гугля, не знаю уж почему но при поиске по Украине они крайне редко выдают нужный результат, обычно результат получают долгим копнением над метой или в последнее время бигмиром.
Идея состоит именно в том чтобы сделать максимально легкий и быстро обновляемый сервис. Обновление базы должно проходить как максимум раз в 2 месяца. В настоящий момент уже существует тестовая версия crawler-ра который за 20 дней обошел базу примерно из 32 тыс. сайтов. (база была предварительно актуализирована).
А сюда я пришел за мнением людей, за возможными советами и за любыми высказанными мыслями. Поэтому заранее спасибо всем ответившим, даже за негативные ответы.
-
Uzver
я так понимаю, уже паучок есть, нужно теперь что-то с информацией делать?
-
паук есть и работает, спайдер... ну скачать страницу и очистить ее от мусора это помоему не тема для обсуждения, базы индексов в принципе тоже расписаны уже чуть ли не побуквенно, поиск по индексам тоже, вопрос стоит в ранжировании страниц найденных по запросу, в определении их релевантности запросу, тобиш расчет веса страницы, расчет веса ресурса коему принадлежит страница, расчет веса слов найденных на странице... не хочется выпустить в мир еще одну "частную страницу" которой никто не будет пользоваться
-
P.S. и еще вопрос вдогонку, в настоящий момент Crawler работает с двух IP адресов (без использования Crawler Agent) используя одну базу (хранятся уже найденные ссылки) со случайной выборкой исследуемой страницы, быть может имеет смысл "заставить" Crawler работать вширь а не вглубь? То есть в первую очередь исследовать первый, второй и быть может третий уровень известных сайтов и только потом идти в глубь? У кого какие идеи на это счет?
-
Uzver
мысли ушли в ПС :)
-
Yukko:
мысли ушли в ПС
Единственный способ повысить интеллект - считать допустимыми любые мысли.
не помню точно кто сказал, кажется некто Кидс году этак в 19... но считаю эту фразу актуальной до сих пор и стараюсь ее придерживаться, поэтому мысли в студию плиз :-)