Forum Webscript.Ru

Программирование => PHP => Тема начата: IgorUSSR от 02 Сентября 2002, 18:01:11

Название: Поиск по сайту
Отправлено: IgorUSSR от 02 Сентября 2002, 18:01:11
Какой скрипт порекомендуете?
Название: Поиск по сайту
Отправлено: Дмитрий Попов от 02 Сентября 2002, 20:12:43
ht::dig (http://www.htdig.org/)

Супер...
А на PHP нормального поиска нет...
Название: Поиск по сайту
Отправлено: ThE0ReTiC от 02 Сентября 2002, 21:44:06
Дмитрий Попов
Ага. А голова нужна чтобы туда есть...
Алгоритм поиска не зависит от языка, на котором он (алгоритм) реализован...
Название: Поиск по сайту
Отправлено: Дмитрий Попов от 02 Сентября 2002, 22:03:29
ThE0ReTiC :
Чей-то Вы злой сегодня...


Цитировать
Алгоритм поиска не зависит от языка, на котором он (алгоритм) реализован


Согласен. Но на PHP нормального поиска нет.
Несогласны?
Покажите хороший поиск на PHP...
Тем более, по скорости PHP При любом алгоритме (:-D) будет работать медленнее C. Несогласны?
Приведите пример крупного проекта на PHP который работает не медленнее чем аналог на C...
Название: Поиск по сайту
Отправлено: Stek от 02 Сентября 2002, 22:44:01
Цитировать
Но на PHP нормального поиска нет.
Несогласны?
Покажите хороший поиск на PHP...


mnogosearch - прекрастно ищет ипользуя php. На текущий момент у меня база поиска порядка 1,5 гига. Планируется 3.

И если я не ошибаюсь, то пхп ведь на C++ написан, а следовательно его возможности зависят от того, как реализован требуемый модуль.
Название: Поиск по сайту
Отправлено: Дмитрий Попов от 02 Сентября 2002, 23:06:58
Stek
Цитировать
mnogosearch - прекрастно ищет ипользуя php

Чем-то он меня в свое время не устроил, а вот чем именно не помню :-)))


Цитировать
И если я не ошибаюсь, то пхп ведь на C++ написан, а следовательно его возможности зависят от того, как реализован требуемый модуль.

Правильно.
Но то, что написанно на C по определению работает медленнее чем C...
Так же, как то что написанно на ASSm работает медленнее чем AssM :-o.
Название: Поиск по сайту
Отправлено: ThE0ReTiC от 03 Сентября 2002, 02:37:05
Дмитрий Попов
Я ваще злой....
Цитировать
Согласен. Но на PHP нормального поиска нет.
Несогласны?

А что в твоем поимании хороший поиск?
Цитировать
Тем более, по скорости PHP При любом алгоритме (:-D) будет работать медленнее C. Несогласны?

Ты ьы еще с чем-нить сравнил.
Забыл,то С - это компилируемый язык, а РНР интерпретируемый как ни крути?
Название: Поиск по сайту
Отправлено: IgorUSSR от 03 Сентября 2002, 09:39:56
Так чево же всетаки вы мне советуете прекрутить (по возможности на PHP) чтобы по сайту искать?
Название: Поиск по сайту
Отправлено: КшЫуфксрук от 03 Сентября 2002, 10:24:40
>mnogosearch - прекрастно ищет ипользуя php

А он разве на ПХП? Он всю жизнь был на Си написан, только фронтенд на ПХП есть.
Название: Поиск по сайту
Отправлено: Stek от 03 Сентября 2002, 10:37:56
Та часть фронтенда на php - именно ищет. А вот сишная - уже индексирует.
Название: Поиск по сайту
Отправлено: КшЫуфксрук от 03 Сентября 2002, 13:00:58
Ты знаешь способ, как можно искать без предварительной индексации?:))

Ну ладно, это уже оффтопик, а по поводу mnogosearch у меня такой вопрос есть: как у него со скоростью поиска? У тебя вроде уже очень приличная база накопилась. Я как-то пробовал ходить по сайтам, где используется mnogosearch. Как только на запрос выдавалось 10000 и более хитов, он начинал безбожно тормозить. Как обстоит дело на твоей базе? Если, допустим, на запрос из 2-3 слов выдается 10000-20000 хитов?
Название: Поиск по сайту
Отправлено: Дмитрий Попов от 03 Сентября 2002, 14:51:59
ThE0ReTiC
Цитировать
страницы,
выделите её и нажмите

a) Быстрый
б) Терпящий большие объемы
в) Учитывающий словоформы (а не % и *), желательно с IsPell
u) Индексирующий не только Html, но и другие форматы, такие как PDF,Doc etc.
Ну и еще кое-что менее важное
Название: Поиск по сайту
Отправлено: ThE0ReTiC от 03 Сентября 2002, 14:56:45
Дмитрий Попов
Цитировать
PDF,Doc etc

Угу. И обязательно с матерным фильтром для автоматической индексации EXE файлов...
IgorUSSR
http://www.searchengines.ru
Название: Поиск по сайту
Отправлено: IgorUSSR от 03 Сентября 2002, 15:06:28
Да, дело в том чобы он не с диска индексировал а с нета, как яндекс тоесть не файлы, а по ссылкам :)
Название: Поиск по сайту
Отправлено: Stek от 03 Сентября 2002, 15:21:12
КшЫуфксрук
Индексацию можно и на пхп написать, то что она будет даже на 50% медленее - погоды не сделает. У меня все равно паралельно 20-30 индекс процессов работают, и то простаивают, ждут пока страница для индексации полностью скачается.

А вообще проблем со скоростью нет, надо базу только нормально настроить, а не держать на дефолтных настройках. Да и индексы полезно изредка пересоздавать.
Название: Поиск по сайту
Отправлено: КшЫуфксрук от 03 Сентября 2002, 15:35:58
>А вообще проблем со скоростью нет

Хотелось бы узнать точные цифры. Понимаю, что это зависит от ... (нужное подчеркнуть), но все таки. На сложном запросе выдающем 10000-20000 хитов сколько будет - секунда, две, пять. На тех сайтах, которые я смотрел, на подобных запросах поиск занимал уже больше секунды, что мне кажется немного медленно. Если написать поиск на чистом ПХП (без мыскли), то он скорее всего побыстрее будет.
Название: Поиск по сайту
Отправлено: IgorUSSR от 03 Сентября 2002, 17:32:01
А многосерчь работает с со ссыками, (все про невозможность индексации по файлам)?
Название: Поиск по сайту
Отправлено: Дмитрий Попов от 03 Сентября 2002, 18:34:36
IgorUSSR
Да
Название: Поиск по сайту
Отправлено: Stek от 03 Сентября 2002, 23:14:48
На свежей базе, с новенькими индексами, порядка одной секунды при порядка 90,000 результатов.

Да в любом случае это от железа зависит. А потом ASPSeek, фактически ребенок от многосерча с такими нагрузками на порядок лучше справляется.
Название: Поиск по сайту
Отправлено: КшЫуфксрук от 04 Сентября 2002, 00:11:00
Э-э-э нет. Не надо путать, ASPSeek имеет совершенно другую структуру индекса. Если mnogosearch хранит индекс в базе, для этого совершенно не предназначенной, то ASPSeek использует стандартные инвертированные файлы, и даже, вроде, сжатые. Все большие системы используют инвертированные файлы, это стандартный подход, поэтому не удивительно, что ASPSeek справляется с миллионами документов. А вот то что mnogosearch так быстро работает, это я первый раз услышал. Сколько же памяти для таких результатов нужно выделить для базы? Просто я действительно однажды потратил час на то, чтобы найти быстрый сайт с поиском на mnogosearch. Безуспешно. Писал свой простенький поиск наподобие mnogosearch (в нем даже релевантности не было, а значит не тратилось время на сортировку), и было заметно замедление поиска для больших колекций.
Название: Поиск по сайту
Отправлено: Stek от 04 Сентября 2002, 10:53:08
IP II 450 / 256Ram.
Просто надо читать доки по mogosearch, там куча хинтов по оптимизации есть.
Я на ASPSeek пока не перехожу потому, что он не понимает нужную мне win1257 кодировку, а это мне просто необходимо.

Цитировать
Если mnogosearch хранит индекс в базе, для этого совершенно не предназначенной, то ASPSeek использует стандартные инвертированные файлы, и даже, вроде, сжатые

Странно, я когда начал им пробывать индексировать, то он создал структуру базы наподобие многосеарча. Хотя я бегло смотрел, могу и ошибатся.