Общие > Базы данных
FULLTEXT и релевантность
DimoninG2:
Ребята, я знаю что подобные темы уже поднимались не раз, но я считаю, что в праве создать новую.
Вопрос номер 1:
Есть интернет-магазин с очень большим числом записей (товары). Мне нужно сделать поиск по всему этому добру. Дело в том, что если у меня есть товары
1. мелкая хрень
2. мелкая штука
3. штука дрюка
и я ввожу в строку поиска "шту юка", то я должен получить это:
1. штука дрюка
2. мелкая штука
3. мелкая хрень
Во всяком случае - на первом месте именно "штука дрюка".
По этой причине я не могу использовать булеантовский поиск (BOOLEAN MODE) или лайк (LIKE) ибо они не дают релевантности. А другие виды поиска в MySQL соответственно не найдут такие слова (они ищут их полностью - то есть по запросу "штука" выдастся 2 результата, а по запросу "шту" - ни одного!).
Что делать, как сделать поиск с релеваностью, но на подобии LIKE (т.е. со спец. символами типа %, обозначающими "любые символы")?
Есть какой-нибудь способ, готовое решение?
Вопрос номер 2:
Если я хочу написать свой алгоритм поиска, то как это лучше сделать? В том смысле, что - организовать как?
Например, пробежать каждую строку в базе, каждую запись. Для нее посчитать кол-во совпадающих символов со строкой запроса, организовать табличку (или массив?!), куда записать релевантность (свою), а потом вывести ее, отсортированную, и удалить таблицу? А не извращение ли? Умные дядьки так делают?.. Но ведь записейт может быть и 500.000 и 1.000.000... Это же год пройдет.
UPD: Перерыл очень много всего в интернете и в мануале. Ответа не нашел.
Green Kakadu:
1. делаешь выборку по шту, выборку по юке и потом отбираешь результаты - на первые места выставляешь те результаты, которые есть в обоих поисках (ну а ниже то где есть вхождение чего-нибудь одного)
2. да ты прав, извращенец
DimoninG2:
1. Ты имеешь в виду используя пункт 2 или какими-то стандартными средствами MySQL (SQL)?
2. Елки... А если два человека начнут искать одновременно?.. Один таблицу создал, а ведь второй уже не может. Твои предложения?
Green Kakadu:
DimoninG2
1 я имею ввиду обычный поиск по базе
http://www.opennet.ru/base/dev/mysql_pgsql_search.txt.html
2 по этому пункту я имел ввиду, что ты предложил извращенный вариант.
Умные дядьки используют для этого индексирование, и ищут по индексу (обратному индексу (Inverted Index); слово => запись в бд где оно упоминается) и на основании этого уже ранжируют
http://company.yandex.ru/articles/article10.html
commander:
Green Kakadu
велосепидистов поощеряешь? :)
Навигация
Перейти к полной версии