Forum Webscript.Ru

Программирование => Perl => Тема начата: Vitos от 23 Января 2002, 12:49:46

Название: Какой скрипт поиска по сайту на Перле самый-самый?
Отправлено: Vitos от 23 Января 2002, 12:49:46: Нужно чтобы он искал и в cgi-директории....
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: NeoNox от 23 Января 2002, 13:06:08: Цитировать
Нужно чтобы он искал и в cgi-директории....

А это еще зачем?
Чтобы облегчить работу хакеру?
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: Vitos от 23 Января 2002, 13:29:39: Весь сайт - это большой cgi-скрипт...
Чего ж тады делать поисковику, если нету html страниц?
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: от 23 Января 2002, 13:45:45: Надо заметить, что в cgi-bin сайты не хранятся. Даже если сайт сделан на cgi-движке, все данные хранятся не в cgi-bin, а в public_html
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: Vitos от 23 Января 2002, 13:51:47: Сайты хранятся там, где мне удобно было их разместить :)
Какие-то данные хранятся в cgi-bin, какие то и в html директории.
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: NeoNox от 23 Января 2002, 13:53:52: Цитировать
Чего ж тады делать поисковику, если нету html страниц?

у тебя скрипт информацию откуда берет? из БД? если сам структуру создавал значит сам и пиши.
Цитировать
Надо заметить, что в cgi-bin сайты не хранятся.

Очень даже хранятся :). Шаблоны и скрипты и бд - все в cgi-bin !
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: NeoNox от 23 Января 2002, 13:55:23: Цитировать
Какие-то данные хранятся в cgi-bin, какие то и в html директории.

То есть, структуры никакой нет?
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: Lion от 23 Января 2002, 14:05:39: А может тебе проще яндекс заставить искать по своему сайту ?
http://yandex.ru/info/addyandex.html тут написано как сделать что бы поставить на свой сайт яндексовскую форму и что б он искал только по твоему сайту...
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: NeoNox от 23 Января 2002, 14:09:52: Цитировать
на свой сайт яндексовскую форму и что б он искал только по твоему сайту...

...и отдавал на растерзание всем скрипты и пароли с настройками? Не вариант. Можно RiSearch настроить так, чтобы он искал только в тех каталогах, это это указано.
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: NAS от 23 Января 2002, 15:16:17: Цитировать
и отдавал на растерзание всем скрипты и пароли с настройками?

О, это как же ?
Название: угу
Отправлено: Green Kakadu от 23 Января 2002, 16:40:01: Цитировать
...и отдавал на растерзание всем скрипты и пароли с настройками?

;) типа прикольно. Если у скрипта права 755 или что-то вроде того, то при вызове яндексом, шмандексом он выдаст лишь то что должен выдать в Content-Type: TEXT/HTML ;)
О каких паролях ты говоришь???

Вопрос иной - что и почему нужно искать? По динамическим страницам, создаваемых скриптом? Тогда нужно использовать скрипт-индексатор который обращается к индексируемым страницам через HTTP, т.е. как к удаленному сайту (модуль LWP)
Если в cgi-bin лежит кучка файлов-страниц, то можно их проиндексировать как угодно. Глупо конечно индексировать сам код скриптов (через open) ;)
Самое разумное - организовать поиск (с предварительным форматированием данных в соотв. вид) по тем данным, что использует скрипт.
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: Vitos от 24 Января 2002, 08:44:11: Цитировать
Вопрос иной - что и почему нужно искать? По динамическим страницам, создаваемых скриптом? Тогда нужно использовать скрипт-индексатор который обращается к индексируемым страницам через HTTP, т.е. как к удаленному сайту (модуль LWP)

Да, вот именно мне такой поисковик и нужен. Можете подсказать, где такой взять?
А насчёт всяких там поисковиков типа Яндекса и т.д. - надо свой.
Название: ну так
Отправлено: Green Kakadu от 24 Января 2002, 09:17:16: http://risearch.org
Тот самый Risearch ;)
там в комплекте есть скрипт spider.pl который и нужен для вашего случая.
Весьма популярный поисковик с нормальной поддержкой русского языка (ведь многие иностранцы и не подозревают, что кроме английских букв существуют и др. не говоря уж о кодировках).
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: Vitos от 24 Января 2002, 09:48:40: Да Вы что!!
Risearch может еще искать не только в папках? Может еще и через адреса?
Т.е. индексировать сайт всё равно необходимо?
Название: ну да
Отправлено: Green Kakadu от 24 Января 2002, 10:00:53: Цитировать
Да Вы что!!
Risearch может еще искать не только в папках? Может еще и через адреса?

Да, там как бы отдельный робот прилагается, тот самый spider.pl Правада, почему то автор не рекомендует использовать его для индексации большого кол-ва разных сайтов, а для одного-двух удаленных (в общем, вам же это и нужно).
Цитировать
Т.е. индексировать сайт всё равно необходимо?

Ну конечно. Просто в первом случае, файлы индексируются оч.просто - open(FILE, "use LWP::Simple;
my $page_content=get($url);
А дальше идет по сути одно и тоже.
Др. дело если бы вы организовали поиск по тем данным из которых генерятся ваши страницы - тогда индексация была бы не нужна, (а может и нужна ,но индекс будет более чистый).
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: Vitos от 24 Января 2002, 10:06:38: Спасибо огромное всем, особенно Green Kakadu!
Попробую, как Вы сказали.
Удачи всем!
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: NeoNox от 24 Января 2002, 12:28:36: Цитировать
О, это как же ?

А очень даже просто...
Допустим у тебя есть текстовый файл pass.txt где лежит служебная информация для скриптов в корне cgi-bin.
Он содержит вот такие строчки:
-------------
login=admin
password=qwerty
-------------
Проиндексируем RiSearch-ем папку cgi-bin.
При запросе "password" будет выдан кусок/все содержимое этого файла в результате поиска.
Вот такая вот "дырдочка"... Так что поакуратнее с индексацией/поиском в cgi-bin.
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: Vitos от 24 Января 2002, 13:25:32: Подскажите, почему я запускаю spider.pl, а он индексирует только первую страницу и всё?
Пробовал уже и на Яндексе
@start_url=qw(http://www.yandex.ru/);
@allow_url=qw(http://www.yandex.ru/);
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: NeoNox от 24 Января 2002, 13:31:11: Ограничение на время исполнение скрипта... Скорее всего.
Индексация страниц 500-а нормально проходит?
Название: может
Отправлено: Green Kakadu от 24 Января 2002, 13:42:58: может установить и проиндексировать его с домашнего компа, а потом базу закачать?
Название: в любом случае
Отправлено: Green Kakadu от 24 Января 2002, 13:45:08: Цитировать
А очень даже просто...
Допустим у тебя есть текстовый файл pass.txt где лежит служебная информация для скриптов в корне cgi-bin.

в любом случае, чтоб этот файл был проиндексирован, на него должна стоять прямая ссылка мои пароли! ;)
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: NeoNox от 24 Января 2002, 13:49:10: Цитировать
на него должна стоять прямая ссылка

не понял... Где она должна стоять?
Название: ну вот!
Отправлено: Green Kakadu от 24 Января 2002, 14:01:36: Цитировать
не понял... Где она должна стоять?

И я про то же, с учетом того, что индексацию мы проводим через HTTP. Конечно, если ты про open(FILE, \'passwords,txt\')... но это вообще несерьезно, также как и индексирование кода. Просто чел-к поначалу неудачно выразился и направил нас по ложному пути ;)
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: Vitos от 24 Января 2002, 14:43:09: Цитировать
Индексация страниц 500-а нормально проходит?

Это как??

Вряд ли это ограничение по времени, потому что скрипт пишет, что всё нормально, я одну страницу отиндексировал.
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: NeoNox от 24 Января 2002, 15:05:22: Цитировать
Это как??

Это так, что на всех халявных серверах (и там где выставлено предельное значение исполнения скриптов) скрипт index умирает на 300-400 страницах...

Цитировать
Вряд ли это ограничение по времени, потому что скрипт пишет, что всё нормально, я одну страницу отиндексировал.

А вот и не врядли...
Создай 500 (пусть одинаковых) страниц и проиндексируй их.
Посмотри на результат. Правда если у тебя будет всего 10 страниц, то вопросы снимаются...
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: NeoNox от 24 Января 2002, 15:09:25: Кстати, иногда полезно читать документацию на скрипт и ЧаВо:
http://risearch.org/rus/risearch/install.htm
Пожалуйста учтите еще одно обстоятельство: большинство вебсерверов не позволяют CGI скриптам работать более 30-60 секунд. Если за это время скрипт не закончит свою работу, сервер его просто убьет. Поэтому сайты объемом более нескольких мегабайт необходимо индексировать либо запуская скрипт через UnixShell, либо на локальной машине.
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: Vitos от 24 Января 2002, 15:16:26: Да читал я и доку и ЧаВы... Он нормально работает, сервер локальный, т.е. можно писать хоть
@start_url=qw(localhost);

Скрипты пашут до минуты - точно!

Но всё равно, не хотит он через http индексировать.
Название: ээ
Отправлено: Green Kakadu от 24 Января 2002, 18:23:59: Цитировать
Но всё равно, не хотит он через http индексировать.

и ничего не кричит не ругается, даже в еррлогах?
Если рассуждать логично, то скрипт рабочий... значит проблема в тебе, сервере или в вас обоих ;)
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: от 25 Января 2002, 01:33:57: Попробовал такие же настройки:
@start_url=qw(http://www.yandex.ru/);
@allow_url=qw(http://www.yandex.ru/);

Все работает, страниц 20 скрипт проиндексировал, потом я его остановил. В скрипте или конфиге больше ничего не менялось?
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: Vitos от 25 Января 2002, 08:11:33: Да вроде ничего такого не менялось супер-пуперного в конфиге...
Может попробовать взять масловый конфиг и там только поменять эти 2 параметра для паука?
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: от 25 Января 2002, 08:55:35: Я брал стандартный конфиг версии 0.99.08, менял только эти две строки и все работало. Что он при этом пишет? Детали можно на мыло отправить: risearch@risearch.org
Название: Какой скрипт поиска по сайту на Перле самй-самый?
Отправлено: Vitos от 25 Января 2002, 10:55:27: О! Свеженький конфиг взял - и жить легче стало! Странно, и что я там такого натворил, что он у меня не пахал? :) мдааа...

Спасибо всем еще раз за идеи всяческие!