Общие > Веб-технологии
алгоритмы поискового робота
Uzver:
Усем драсте.
Есть большое желание сделать что-то вроде поискового сервера. Не гуглю конечьно, просто в пику нехорошим ребятам из bigmir.net и meta.ua. Уж больно не качественно они работают, а альтернативы им при поиске исключительно по Украине нет как таковой. Уточню сразу, что поисковый сервер будет ориентирован исключительно на Украину, не на мир.
Из имеющихся на сегодняшний день ресурсов, выделенный сервер, с трафиком анлиметед подключенный к оптоволокну (не смейтесь пожалуйста, для Украины, если вы не провайдер и не финансовый монстр это очень критичный момент). Есть общая теория работы поискового механизма, думаю что ничего нового здесь изобретено не было поэтому освещать этот момент не буду.
Первоначальная реализация планируется на php. Почему именно php? Ближайшая цель это создать рабочий прототип в котором будет реализован алгоритм работы, и который докажет работоспособность оного. Тогда уже можно будет перейти к реализации сервера на других платформах и увеличении технической базы. Оговорюсь сразу, это частный проект, он поддерживается и финансируется из собственного кармана без привлечения внешних инвестиций.
А теперь собственно сам вопрос:
Как лучше организовать обход страниц для последующего их внесения в индексную базу. Как лучше учитывать вес страницы, ее релевантность, количество ссылок на нее, вес ресурса которому принадлежит страница и т.д. и т.п.
Если кто-то уже сталкивался, или имеет теоретическую базу, или просто мысли, делитесь, не стесняйтесь, родина вас не забудет:-). Если есть вопросы, спрашивайте, уточняйте, буду стараться отвечать. Если у кого то есть предложения, иле желание поучаствовать в проекте, также милости просим, в общем буду крайне признателен за любую информацию, даже за ссылку на толковый ман :-).
Yukko:
Меня всегда поражали украинцы своей любовью ко всему, что выпущено в Украине. Это уже четвертый или даже пятый поиск, который будет реализован в моей родной стране, если еще будет реализован.
Uzver
Думаю, что изначально стоит задать абсолютно такой же запрос в Яндекс:
http://www.yandex.ru/yandsearch?rpt=rad&text=%E0%EB%E3%EE%F0%E8%F2%EC%FB+%EF%EE%E8%F1%EA%EE%E2%EE%E3%EE+%F0%EE%E1%EE%F2%E0
а также почиать форум:
http://forum.searchengines.ru
CGVictor:
[off]Yukko
Всецело согласен.[/off]
Uzver
Яндекс может вполне сносно искать по ресурсам UA.
Uzver:
За ссылки спасибо, но они уже давно изучены. Касательно ридной неньки Украины, поиск по Украине действительно актуальный вопрос. Мета с ее тяжеловесностью кучей рекламы в результатах поиска и индексом обновляемым минимум раз в пол года… и бигмир с чуть меньшим количеством рекламы … Касательно яндекса, не сносно он ищет по Украине, также как и гугля, не знаю уж почему но при поиске по Украине они крайне редко выдают нужный результат, обычно результат получают долгим копнением над метой или в последнее время бигмиром.
Идея состоит именно в том чтобы сделать максимально легкий и быстро обновляемый сервис. Обновление базы должно проходить как максимум раз в 2 месяца. В настоящий момент уже существует тестовая версия crawler-ра который за 20 дней обошел базу примерно из 32 тыс. сайтов. (база была предварительно актуализирована).
А сюда я пришел за мнением людей, за возможными советами и за любыми высказанными мыслями. Поэтому заранее спасибо всем ответившим, даже за негативные ответы.
Yukko:
Uzver
я так понимаю, уже паучок есть, нужно теперь что-то с информацией делать?
Навигация
Перейти к полной версии