Программирование > Теория, алгоритмы и стандарты
Алгоритм Чудо-поиска
USE:
--- Цитировать ---NAS:
А хорошо ли это
--- Конец цитаты ---
ничего плохого в этом нет. можно будет индексировать и другие сайты, и осуществлять поиск по индексу двух, трех сайтов, если большая компания, а переписывать постоянно под тонкости какого-то сайта - плохо. много времени занимает переработка. а в соединении с сервером по http - просто, основная проблема в построении индекса, точнее в подсчете релевантности, в парсинге HTML, хотя если писать на Перле, то эта проблема превращается в удовольствие ;-)
[OFF]не в кассу: не знаете ли каких-либо поисковых систем с отрытым исходным кодом в которых реализовывается подсчет релевантности? или может быть какие-то гиганты раскрывали секреты своих систем?[/OFF]
tarya:
--- Цитировать ---Mog.:
И что ты имеешь ввиду под словом "база". Текстовой файл, таблица MySQL, что то еще. Уточни, плиз.
--- Конец цитаты ---
короче говоря половина инфо лежит на сайте в файлах ХТМЛ и половина доков в базе данных MySQL
--- Цитировать ---USE:
старый сайт был статическим, т.е. данные лежали на диске и tarya индексировал файлы, а теперь когда инфа в базе, то надо индексировать базу?
--- Конец цитаты ---
старый сайт так и роботает, и работает хорошо, разговор уже о новом сайте - где все лежит 50/50 в файлах и базе.
подключаться через ХТТП это наверное гемороя еще на год :), проще переделать мой индексирующий скрипт и индексить как файлы на сервере так и базу данных
semya:
--- Цитировать ---подключаться через ХТТП это наверное гемороя еще на год
--- Конец цитаты ---
вовсе нет, если утебя есть таблица со списком страниц сайта, то по ссылкам из нее прошелся к примеру striptags(implode(\'\',file(...))) и загнал все в базу, а потом поиск превращется в удовольствие даже для сервера!!!
Навигация
Перейти к полной версии