Автор Тема: Алгоритм скрипта поиска  (Прочитано 2162 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн RelaX

  • Фанат форума
  • Постоялец
  • ***
  • Сообщений: 200
  • +0/-0
  • 0
    • Просмотр профиля
Алгоритм скрипта поиска
« : 11 Июля 2004, 12:59:09 »
Подскажите алгоритм, по которому можно написать поисковик по сайту, который будет индексировать содержимое сайта через http, а не локально в файлах.

Искал в поисковый системах, но ничего такого не нашел

Оффлайн Mog.

  • Фанат форума
  • Ветеран
  • *****
  • Сообщений: 828
  • +0/-0
  • 0
    • Просмотр профиля
Алгоритм скрипта поиска
« Ответ #1 : 11 Июля 2004, 14:02:51 »
Цитировать
RelaX:
Искал в поисковый системах, но ничего такого не нашел

И верно, одна мутотень

Кааароче!
1. И вроде самое главное! Не делай этого. Даже с моих жалких познаний в программировании это самый распоследний метод для создания поисковика по своему сайту (суть уловил?).
2. Все начинается с коннекта (по протоколу хттп с методом гет) к сайту (его первой и самой главной странице, к "виртуальному корню", да не побьют меня профессионалы).
3. Полученные данные "парсятся" на момент ссылок (из полученных данных выдергиваются ссылки те, что после href=" и до " , возможны варианты)
4. Полученные ссылки проверяются на момент принадлежности к этому сайту(убираются все ссылки на внешние источники(регулярные выражения, строковые функции и т.д.)) и складываются на момент последующего использования (в "склад" складываются)
5. Полученные данные разбираются на значащие слова(тут все как и у поиска не по хттп).
6. Из "склада" ссылок берем ссылку и возвращаемся к пункту 2 (два), вместо "корня сайта" подставляя текущую ссылку.
7. Не забываем проверять "а нет ли уже таких ссылок на складе".
8. Все это делается до тех пор, пока "склад ссылок" не опустеет окончательно и бесповоротно.

[OFF]Вот после литра пива и пишешь такое :)[/OFF]
Все болезни от нервов, только сифилис от удовольствия

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28