Алгоритм Чудо-поиска

Программирование > Теория, алгоритмы и стандарты

<< < (3/3)

USE:

--- Цитировать ---NAS:
А хорошо ли это
--- Конец цитаты ---

ничего плохого в этом нет. можно будет индексировать и другие сайты, и осуществлять поиск по индексу двух, трех сайтов, если большая компания, а переписывать постоянно под тонкости какого-то сайта - плохо. много времени занимает переработка. а в соединении с сервером по http - просто, основная проблема в построении индекса, точнее в подсчете релевантности, в парсинге HTML, хотя если писать на Перле, то эта проблема превращается в удовольствие ;-)

[OFF]не в кассу: не знаете ли каких-либо поисковых систем с отрытым исходным кодом в которых реализовывается подсчет релевантности? или может быть какие-то гиганты раскрывали секреты своих систем?[/OFF]

tarya:

--- Цитировать ---Mog.:
И что ты имеешь ввиду под словом "база". Текстовой файл, таблица MySQL, что то еще. Уточни, плиз.
--- Конец цитаты ---

короче говоря половина инфо лежит на сайте в файлах ХТМЛ и половина доков в базе данных MySQL

--- Цитировать ---USE:
старый сайт был статическим, т.е. данные лежали на диске и tarya индексировал файлы, а теперь когда инфа в базе, то надо индексировать базу?
--- Конец цитаты ---

старый сайт так и роботает, и работает хорошо, разговор уже о новом сайте - где все лежит 50/50 в файлах и базе.

подключаться через ХТТП это наверное гемороя еще на год :), проще переделать мой индексирующий скрипт и индексить как файлы на сервере так и базу данных

semya:

--- Цитировать ---подключаться через ХТТП это наверное гемороя еще на год
--- Конец цитаты ---

вовсе нет, если утебя есть таблица со списком страниц сайта, то по ссылкам из нее прошелся к примеру striptags(implode(\'\',file(...))) и загнал все в базу, а потом поиск превращется в удовольствие даже для сервера!!!

Навигация

[0] Главная страница сообщений

[*] Предыдущая страница

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

Перейти к полной версии