Программирование > Теория, алгоритмы и стандарты
Словоформы для поиска
Tronyx:
Кто подскажет как лучше и эффективней сделать образование словоформ при поиске?
КшЫуфксрук:
Взять словарь от ispell, затем либо посмотреть как сделано в mnogosearch, либо придумать свой формат хранения словаря и свой алгоритм его обработки.
Также, если очень хорошо поискать, в сети можно найти словарь Зализняка.
Компактный и быстрый модуль требует некоторых усилий. Я свой неделю вылизывал, пока не получил более менее приличную скорость работы (писалось все не Перле).
rembo:
--- Цитировать ---посмотреть как сделано в mnogosearch
--- Конец цитаты ---
Вот именно! Это целый раздел информатики и лингвистики этим занимаются вот уже несколько десятков лет не последние умы человечества. Так что, возьми что-то готовое, а если это тебя не устраивает - начни с того чтоб поступить в какой-нить филологический факультет одного из отечественных университетов :)
КшЫуфксрук:
> поступить в какой- нить филологический факультет
В корне не согласен. Для написания профессионального морфологического анализатора неплохо иметь под рукой профессионального лингвиста. Но в вебприложениях данная задача обычно возникает при написании поисковых систем, а там требования к морфологии упрощены: нужно уметь определять нормальную форму для любой словоформы и выдавать все словоформы для нормальной формы. Есть морфологические словари (Зализняка и Тихонова), где уже есть вся информация о словоформах различных слов (вот для составления этих словарей нужен лингвист). Кроме того, есть бесплатный словарь от ispell, который не совсем морфологический, но для поисковика его хватает. Дальше нужно только вычленить из словарей нужную информацию в нужном формате, придумать структуру данных для ее хранения (хэш-таблицу или конечный автомат), запрограммировать все это дело. Тут уже никакой лингвист не нужен.
rembo:
--- Цитировать ---Так что, возьми что-то готовое
--- Конец цитаты ---
Это то что я имел ввиду, а на счет поступления в университет - это как бы "образно говоря".
--- Цитировать ---морфологического анализатора... ...нормальную форму для любой словоформы и выдавать все словоформы для нормальной формы...
--- Конец цитаты ---
Во всяком случае и твои знания не из бульварной газетки взяты. :)
Навигация
Перейти к полной версии