Forum Webscript.Ru
Общие => Веб-технологии => Тема начата: Glum от 05 Мая 2006, 09:51:16
-
Здравствуйте!
Имеется куча файлов *.doc. Передо мной стоит задача организовать поиск по этим файлам. Как правильно это сделать?
Мне всё представляется так. Движок поисковика состоит из двух частей: "индексатор" и скрипт поиска по индексу, взаимодействуют они через MySQL.
Вторая часть будет писаться на PHP (из web-языков он для меня самый понятный), тут в принципе все ясно. А вот на чем можно написать "индексатор" (можно ли это сделать на PHP или в крайнем случае на Delphi?). И каковы основные функции у него должны быть, примерные алгоритмы их решения?
Подскажите, в каком направлении мне двигаться дальше.
-
Glum
На PHP работать с .doc будет весьма и весьма геморройно. Я бы не стал.
Можно и на Delphi (от языка вообще мало зависит, надо будет или файлы разбирать, или Word.Application юзать).
-
Пришла идея сначала конвертировать doc в txt и индексировать уже txt, ведь форматирование, картинки и тд тут не важны. Это можно реализовать в Delphi, но это на крайний случай т.к. будет немного неудобно. Можно ли сделать это силами PHP & Perl? Либо может есть готовые утилитки?
-
А не легче ли в датабазу всё переместить и делать поиск используя датабазу.
Или же раскажите как поисковик построить типа Гугла который бы открывал все виды документов и интексировал?
-
2 alex007
У меня сотни рефератов по которым нужно организовать поиск, считаю нецелесообразным весь текст из них помещать в БД, лучше проиндексировать. Или я не прав?
Основной же мой вопрос к вам, уважаемые, таков: каким образом мне можно программно прочитать doc-файлы или же конвертировать их в txt.
Гугль мне тут асболютно не нужен, и поисковую систему по всему инету я кодить не собираюсь, так что попрошу без сарказма.
-
Glum
На чем сервер? Nix или Win?
-
Взять дампы документов в html из любой бухгалтерской софтины (1C).
Если интересуют какие-то типовые формы, то можно поискать на klerk.ru, но вот конкретно для счетов и актов, например, я уже любых-произвольных навидался...
-
Это замечательная вещь
-
Ничего не понял. но очень интересно