Общие > Веб-технологии

Организация поиска на сайте

(1/2) > >>

Glum:
Здравствуйте!

Имеется куча файлов *.doc. Передо мной стоит задача организовать поиск по этим файлам. Как правильно это сделать?
Мне всё представляется так. Движок поисковика состоит из двух частей: "индексатор" и скрипт поиска по индексу, взаимодействуют они через MySQL.
Вторая часть будет писаться на PHP (из web-языков он для меня самый понятный), тут в принципе все ясно. А вот на чем можно написать "индексатор" (можно ли это сделать на PHP или в крайнем случае на Delphi?). И каковы основные функции у него должны быть, примерные алгоритмы их решения?

Подскажите, в каком направлении мне двигаться дальше.

CGVictor:
Glum
На PHP работать с .doc будет весьма и весьма геморройно. Я бы не стал.
Можно и на Delphi (от языка вообще мало зависит, надо будет или файлы разбирать, или Word.Application юзать).

Glum:
Пришла идея сначала конвертировать doc в txt и индексировать уже txt, ведь форматирование, картинки и тд тут не важны. Это можно реализовать в Delphi, но это на крайний случай т.к. будет немного неудобно. Можно ли сделать это силами PHP & Perl? Либо может есть готовые утилитки?

alex007:
А не легче ли в датабазу всё переместить и делать поиск используя датабазу.

Или же раскажите как поисковик построить типа Гугла который бы открывал все виды документов и интексировал?

Glum:
2 alex007
У меня сотни рефератов по которым нужно организовать поиск, считаю нецелесообразным весь текст из них помещать в БД, лучше проиндексировать. Или я не прав?
Основной же мой вопрос к вам, уважаемые, таков: каким образом мне можно программно прочитать doc-файлы или же конвертировать их в txt.
Гугль мне тут асболютно не нужен, и поисковую систему по всему инету я кодить не собираюсь, так что попрошу без сарказма.

Навигация

[0] Главная страница сообщений

[#] Следующая страница

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 
Перейти к полной версии