Forum Webscript.Ru

Общие => Веб-технологии => Тема начата: Glum от 05 Мая 2006, 09:51:16

Название: Организация поиска на сайте
Отправлено: Glum от 05 Мая 2006, 09:51:16
Здравствуйте!

Имеется куча файлов *.doc. Передо мной стоит задача организовать поиск по этим файлам. Как правильно это сделать?
Мне всё представляется так. Движок поисковика состоит из двух частей: "индексатор" и скрипт поиска по индексу, взаимодействуют они через MySQL.
Вторая часть будет писаться на PHP (из web-языков он для меня самый понятный), тут в принципе все ясно. А вот на чем можно написать "индексатор" (можно ли это сделать на PHP или в крайнем случае на Delphi?). И каковы основные функции у него должны быть, примерные алгоритмы их решения?

Подскажите, в каком направлении мне двигаться дальше.
Название: Организация поиска на сайте
Отправлено: CGVictor от 05 Мая 2006, 10:57:12
Glum
На PHP работать с .doc будет весьма и весьма геморройно. Я бы не стал.
Можно и на Delphi (от языка вообще мало зависит, надо будет или файлы разбирать, или Word.Application юзать).
Название: Организация поиска на сайте
Отправлено: Glum от 05 Мая 2006, 17:42:28
Пришла идея сначала конвертировать doc в txt и индексировать уже txt, ведь форматирование, картинки и тд тут не важны. Это можно реализовать в Delphi, но это на крайний случай т.к. будет немного неудобно. Можно ли сделать это силами PHP & Perl? Либо может есть готовые утилитки?
Название: Организация поиска на сайте
Отправлено: alex007 от 06 Мая 2006, 01:10:08
А не легче ли в датабазу всё переместить и делать поиск используя датабазу.

Или же раскажите как поисковик построить типа Гугла который бы открывал все виды документов и интексировал?
Название: Организация поиска на сайте
Отправлено: Glum от 06 Мая 2006, 22:21:15
2 alex007
У меня сотни рефератов по которым нужно организовать поиск, считаю нецелесообразным весь текст из них помещать в БД, лучше проиндексировать. Или я не прав?
Основной же мой вопрос к вам, уважаемые, таков: каким образом мне можно программно прочитать doc-файлы или же конвертировать их в txt.
Гугль мне тут асболютно не нужен, и поисковую систему по всему инету я кодить не собираюсь, так что попрошу без сарказма.
Название: Организация поиска на сайте
Отправлено: CGVictor от 12 Мая 2006, 09:57:42
Glum
На чем сервер? Nix или Win?
Название: Re: Организация поиска на сайте
Отправлено: Sxandy от 11 Ноября 2014, 15:29:05
Взять дампы документов в html из любой бухгалтерской софтины (1C).

Если интересуют какие-то типовые формы, то можно поискать на klerk.ru, но вот конкретно для счетов и актов, например, я уже любых-произвольных навидался...
Название: Re: Организация поиска на сайте
Отправлено: Kebebza от 16 Августа 2019, 10:29:33
Это замечательная вещь
Название: Re: Организация поиска на сайте
Отправлено: oldDantist от 30 Сентября 2019, 12:25:52
Ничего не понял. но очень интересно