Программирование > Теория, алгоритмы и стандарты
Словоформы для поиска
глебушка:
КшЫуфксрук, а ну-ка колись:-). как ты организовал словарь
--- Цитировать ---ispell
--- Конец цитаты ---
, просто рассортировал по алфавиту в отдельные файлы? Или ещё чего похитрее. А то я тоже написал поиск, да толлько когда я запускаю индексирование на своём П166, страшно становиться, дико тормозит:-).
--- Цитировать ---можно найти словарь Зализняка
--- Конец цитаты ---
если кто найдёт, плиз киньте ссылку! (я не нашёл:-)
КшЫуфксрук:
> Во всяком случае и твои знания не из бульварной газетки взяты.
Несколько часов вместе с Яндексом и чтение различных сайтов. Это все же ближе к бульварной газетке. Хотя, те кто занимается этим серьезно и знания получает в другом месте.
> а ну-ка колись:-). как ты организовал словарь
На моем сайте есть обрезанная демо-версия. При желании можно понять, как все это работает. Правда, это самая первая версия, очень медленная - порядка 100-200 слов в секунду. Последняя в режиме нормализации дает 3000-4000 слов в секунду. Но даже с такой скоростью это все еще самое узкое место при индексации.
Формат словаря может быть самым разным. У меня сделано на основе ternary-tree. У Коваленко (рекомендую полистать описание его алгоритма) особое дерево. Сегалович делал на основе разряженной хэш-таблицы (perfect minimal hashing), на сайте Комтека была статья с описанием. Используют также конечные автоматы.
Навигация
Перейти к полной версии