Программирование > Теория, алгоритмы и стандарты

Словоформы для поиска

<< < (2/2)

глебушка:
КшЫуфксрук, а ну-ка колись:-). как ты организовал словарь
--- Цитировать ---ispell
--- Конец цитаты ---
, просто рассортировал по алфавиту в отдельные файлы? Или ещё чего похитрее. А то я тоже написал поиск, да толлько когда я запускаю индексирование на своём П166, страшно становиться, дико тормозит:-).

--- Цитировать ---можно найти словарь Зализняка
--- Конец цитаты ---

если кто найдёт, плиз киньте ссылку! (я не нашёл:-)

КшЫуфксрук:
> Во всяком случае и твои знания не из бульварной газетки взяты.

Несколько часов вместе с Яндексом и чтение различных сайтов. Это все же ближе к бульварной газетке. Хотя, те кто занимается этим серьезно и знания получает в другом месте.

> а ну-ка колись:-). как ты организовал словарь

На моем сайте есть обрезанная демо-версия. При желании можно понять, как все это работает. Правда, это самая первая версия, очень медленная - порядка 100-200 слов в секунду. Последняя в режиме нормализации дает 3000-4000 слов в секунду. Но даже с такой скоростью это все еще самое узкое место при индексации.

Формат словаря может быть самым разным. У меня сделано на основе ternary-tree. У Коваленко (рекомендую полистать описание его алгоритма) особое дерево. Сегалович делал на основе разряженной хэш-таблицы (perfect minimal hashing), на сайте Комтека была статья с описанием. Используют также конечные автоматы.

Навигация

[0] Главная страница сообщений

[*] Предыдущая страница

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 
Перейти к полной версии