Автор Тема: алгоритмы поискового робота  (Прочитано 5788 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Uzver

  • Завсегдатай
  • Новичок
  • *
  • Сообщений: 47
  • +0/-0
  • 0
    • Просмотр профиля
алгоритмы поискового робота
« : 10 Февраля 2006, 19:08:57 »
Усем драсте.
Есть большое желание сделать что-то вроде поискового сервера. Не гуглю конечьно, просто в пику нехорошим ребятам из bigmir.net и meta.ua. Уж больно не качественно они работают, а альтернативы им при поиске исключительно по Украине нет как таковой. Уточню сразу, что поисковый сервер будет ориентирован исключительно на Украину, не на мир.

Из имеющихся на сегодняшний день ресурсов, выделенный сервер, с трафиком анлиметед подключенный к оптоволокну (не смейтесь пожалуйста, для Украины, если вы не провайдер и не финансовый монстр это очень критичный момент). Есть общая теория работы поискового механизма, думаю что ничего нового здесь изобретено не было поэтому освещать этот момент не буду.

Первоначальная реализация планируется на php. Почему именно php? Ближайшая цель это создать рабочий прототип в котором будет реализован алгоритм работы, и который докажет работоспособность оного. Тогда уже можно будет перейти к реализации сервера на других платформах и увеличении технической базы. Оговорюсь сразу, это частный проект, он поддерживается и финансируется из собственного кармана без привлечения внешних инвестиций.

А теперь собственно сам вопрос:
Как лучше организовать обход страниц для последующего их внесения в индексную базу. Как лучше учитывать вес страницы, ее релевантность, количество ссылок на нее, вес ресурса которому принадлежит страница и т.д. и т.п.

Если кто-то уже сталкивался, или имеет теоретическую базу, или просто мысли, делитесь, не стесняйтесь, родина вас не забудет:-). Если есть вопросы, спрашивайте, уточняйте, буду стараться отвечать. Если у кого то есть предложения, иле желание поучаствовать в проекте, также милости просим, в общем буду крайне признателен за любую информацию, даже за ссылку на толковый ман :-).
В твоих руках все \"за\" и \"против\"
Тебе дарован меч судьбы.  Цену большую заплатив,  Ты жизнь не мыслишь без борьбы  За право \"быть\", а не \"казаться\",  И за собою жечь мосты.  Ты мир заставишь прогибаться,  Иначе ты - уже не ты!

Оффлайн Yukko

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1586
  • +0/-0
  • 0
    • Просмотр профиля
    • http://estrabota.com.ua
алгоритмы поискового робота
« Ответ #1 : 11 Февраля 2006, 02:37:59 »
Меня всегда поражали украинцы своей любовью ко всему, что выпущено в Украине. Это уже четвертый или даже пятый поиск, который будет реализован в моей родной стране, если еще будет реализован.

Uzver
Думаю, что изначально стоит задать абсолютно такой же запрос в Яндекс:
http://www.yandex.ru/yandsearch?rpt=rad&text=%E0%EB%E3%EE%F0%E8%F2%EC%FB+%EF%EE%E8%F1%EA%EE%E2%EE%E3%EE+%F0%EE%E1%EE%F2%E0

а также почиать форум:
http://forum.searchengines.ru
работа в Украине

Оффлайн CGVictor

  • теперь местный
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 2511
  • +0/-0
  • 2
    • Просмотр профиля
    • http://cg.net.ru
алгоритмы поискового робота
« Ответ #2 : 11 Февраля 2006, 11:38:06 »
[off]Yukko
Всецело согласен.[/off]

Uzver
Яндекс может вполне сносно искать по ресурсам UA.
LJ: Backslashed life (rss)

Оффлайн Uzver

  • Завсегдатай
  • Новичок
  • *
  • Сообщений: 47
  • +0/-0
  • 0
    • Просмотр профиля
алгоритмы поискового робота
« Ответ #3 : 11 Февраля 2006, 13:39:54 »
За ссылки спасибо, но они уже давно изучены. Касательно ридной неньки Украины, поиск по Украине действительно актуальный вопрос. Мета с ее тяжеловесностью кучей рекламы в результатах поиска и индексом обновляемым минимум раз в пол года… и бигмир с чуть меньшим количеством рекламы … Касательно яндекса, не сносно он ищет по Украине, также как и гугля, не знаю уж почему но при поиске по Украине они крайне редко выдают нужный результат, обычно результат получают долгим копнением над метой или в последнее время бигмиром.
Идея состоит именно в том чтобы сделать максимально легкий и быстро обновляемый сервис. Обновление базы должно проходить как максимум раз в 2 месяца. В настоящий момент уже существует тестовая версия crawler-ра который за 20 дней обошел базу примерно из 32 тыс. сайтов. (база была предварительно актуализирована).
А сюда я пришел за мнением людей, за возможными советами и за любыми высказанными мыслями. Поэтому заранее спасибо всем ответившим, даже за негативные ответы.
В твоих руках все \"за\" и \"против\"
Тебе дарован меч судьбы.  Цену большую заплатив,  Ты жизнь не мыслишь без борьбы  За право \"быть\", а не \"казаться\",  И за собою жечь мосты.  Ты мир заставишь прогибаться,  Иначе ты - уже не ты!

Оффлайн Yukko

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1586
  • +0/-0
  • 0
    • Просмотр профиля
    • http://estrabota.com.ua
алгоритмы поискового робота
« Ответ #4 : 11 Февраля 2006, 20:05:29 »
Uzver
я так понимаю, уже паучок есть, нужно теперь что-то с информацией делать?
работа в Украине

Оффлайн Uzver

  • Завсегдатай
  • Новичок
  • *
  • Сообщений: 47
  • +0/-0
  • 0
    • Просмотр профиля
алгоритмы поискового робота
« Ответ #5 : 11 Февраля 2006, 21:54:10 »
паук есть и работает, спайдер... ну скачать страницу и очистить ее от мусора это помоему не тема для обсуждения, базы индексов в принципе тоже расписаны уже чуть ли не побуквенно, поиск по индексам тоже, вопрос стоит в ранжировании страниц найденных по запросу, в определении их релевантности запросу, тобиш расчет веса страницы, расчет веса ресурса коему принадлежит страница, расчет веса слов найденных на странице... не хочется выпустить в мир еще одну "частную страницу" которой никто не будет пользоваться
В твоих руках все \"за\" и \"против\"
Тебе дарован меч судьбы.  Цену большую заплатив,  Ты жизнь не мыслишь без борьбы  За право \"быть\", а не \"казаться\",  И за собою жечь мосты.  Ты мир заставишь прогибаться,  Иначе ты - уже не ты!

Оффлайн Uzver

  • Завсегдатай
  • Новичок
  • *
  • Сообщений: 47
  • +0/-0
  • 0
    • Просмотр профиля
алгоритмы поискового робота
« Ответ #6 : 11 Февраля 2006, 22:04:56 »
P.S. и еще вопрос вдогонку, в настоящий момент Crawler работает с двух IP адресов (без использования Crawler Agent) используя одну базу (хранятся уже найденные ссылки) со случайной выборкой исследуемой страницы, быть может имеет смысл "заставить" Crawler работать вширь а не вглубь? То есть в первую очередь исследовать первый, второй и быть может третий уровень известных сайтов и только потом идти в глубь? У кого какие идеи на это счет?
В твоих руках все \"за\" и \"против\"
Тебе дарован меч судьбы.  Цену большую заплатив,  Ты жизнь не мыслишь без борьбы  За право \"быть\", а не \"казаться\",  И за собою жечь мосты.  Ты мир заставишь прогибаться,  Иначе ты - уже не ты!

Оффлайн Yukko

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1586
  • +0/-0
  • 0
    • Просмотр профиля
    • http://estrabota.com.ua
алгоритмы поискового робота
« Ответ #7 : 12 Февраля 2006, 01:36:42 »
Uzver
мысли ушли в ПС :)
работа в Украине

Оффлайн Uzver

  • Завсегдатай
  • Новичок
  • *
  • Сообщений: 47
  • +0/-0
  • 0
    • Просмотр профиля
алгоритмы поискового робота
« Ответ #8 : 12 Февраля 2006, 01:59:07 »
Цитировать
Yukko:
мысли ушли в ПС

Единственный способ повысить интеллект - считать допустимыми любые мысли.
не помню точно кто сказал, кажется некто Кидс году этак в 19... но считаю эту фразу актуальной до сих пор и стараюсь ее придерживаться, поэтому мысли в студию плиз :-)
В твоих руках все \"за\" и \"против\"
Тебе дарован меч судьбы.  Цену большую заплатив,  Ты жизнь не мыслишь без борьбы  За право \"быть\", а не \"казаться\",  И за собою жечь мосты.  Ты мир заставишь прогибаться,  Иначе ты - уже не ты!

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28