Forum Webscript.Ru
Программирование => Perl => Тема начата: Vitos от 23 Января 2002, 12:49:46
-
Нужно чтобы он искал и в cgi-директории....
-
Нужно чтобы он искал и в cgi-директории....
А это еще зачем?
Чтобы облегчить работу хакеру?
-
Весь сайт - это большой cgi-скрипт...
Чего ж тады делать поисковику, если нету html страниц?
-
Надо заметить, что в cgi-bin сайты не хранятся. Даже если сайт сделан на cgi-движке, все данные хранятся не в cgi-bin, а в public_html
-
Сайты хранятся там, где мне удобно было их разместить :)
Какие-то данные хранятся в cgi-bin, какие то и в html директории.
-
Чего ж тады делать поисковику, если нету html страниц?
у тебя скрипт информацию откуда берет? из БД? если сам структуру создавал значит сам и пиши.Надо заметить, что в cgi-bin сайты не хранятся.
Очень даже хранятся :). Шаблоны и скрипты и бд - все в cgi-bin !
-
Какие-то данные хранятся в cgi-bin, какие то и в html директории.
То есть, структуры никакой нет?
-
А может тебе проще яндекс заставить искать по своему сайту ?
http://yandex.ru/info/addyandex.html тут написано как сделать что бы поставить на свой сайт яндексовскую форму и что б он искал только по твоему сайту...
-
на свой сайт яндексовскую форму и что б он искал только по твоему сайту...
...и отдавал на растерзание всем скрипты и пароли с настройками? Не вариант. Можно RiSearch настроить так, чтобы он искал только в тех каталогах, это это указано.
-
и отдавал на растерзание всем скрипты и пароли с настройками?
О, это как же ?
-
...и отдавал на растерзание всем скрипты и пароли с настройками?
;) типа прикольно. Если у скрипта права 755 или что-то вроде того, то при вызове яндексом, шмандексом он выдаст лишь то что должен выдать в Content-Type: TEXT/HTML ;)
О каких паролях ты говоришь???
Вопрос иной - что и почему нужно искать? По динамическим страницам, создаваемых скриптом? Тогда нужно использовать скрипт-индексатор который обращается к индексируемым страницам через HTTP, т.е. как к удаленному сайту (модуль LWP)
Если в cgi-bin лежит кучка файлов-страниц, то можно их проиндексировать как угодно. Глупо конечно индексировать сам код скриптов (через open) ;)
Самое разумное - организовать поиск (с предварительным форматированием данных в соотв. вид) по тем данным, что использует скрипт.
-
Вопрос иной - что и почему нужно искать? По динамическим страницам, создаваемых скриптом? Тогда нужно использовать скрипт-индексатор который обращается к индексируемым страницам через HTTP, т.е. как к удаленному сайту (модуль LWP)
Да, вот именно мне такой поисковик и нужен. Можете подсказать, где такой взять?
А насчёт всяких там поисковиков типа Яндекса и т.д. - надо свой.
-
http://risearch.org
Тот самый Risearch ;)
там в комплекте есть скрипт spider.pl который и нужен для вашего случая.
Весьма популярный поисковик с нормальной поддержкой русского языка (ведь многие иностранцы и не подозревают, что кроме английских букв существуют и др. не говоря уж о кодировках).
-
Да Вы что!!
Risearch может еще искать не только в папках? Может еще и через адреса?
Т.е. индексировать сайт всё равно необходимо?
-
Да Вы что!!
Risearch может еще искать не только в папках? Может еще и через адреса?
Да, там как бы отдельный робот прилагается, тот самый spider.pl Правада, почему то автор не рекомендует использовать его для индексации большого кол-ва разных сайтов, а для одного-двух удаленных (в общем, вам же это и нужно).
Т.е. индексировать сайт всё равно необходимо?
Ну конечно. Просто в первом случае, файлы индексируются оч.просто - open(FILE, "use LWP::Simple;
my $page_content=get($url);
А дальше идет по сути одно и тоже.
Др. дело если бы вы организовали поиск по тем данным из которых генерятся ваши страницы - тогда индексация была бы не нужна, (а может и нужна ,но индекс будет более чистый).
-
Спасибо огромное всем, особенно Green Kakadu!
Попробую, как Вы сказали.
Удачи всем!
-
О, это как же ?
А очень даже просто...
Допустим у тебя есть текстовый файл pass.txt где лежит служебная информация для скриптов в корне cgi-bin.
Он содержит вот такие строчки:
-------------
login=admin
password=qwerty
-------------
Проиндексируем RiSearch-ем папку cgi-bin.
При запросе "password" будет выдан кусок/все содержимое этого файла в результате поиска.
Вот такая вот "дырдочка"... Так что поакуратнее с индексацией/поиском в cgi-bin.
-
Подскажите, почему я запускаю spider.pl, а он индексирует только первую страницу и всё?
Пробовал уже и на Яндексе
@start_url=qw(http://www.yandex.ru/);
@allow_url=qw(http://www.yandex.ru/);
-
Ограничение на время исполнение скрипта... Скорее всего.
Индексация страниц 500-а нормально проходит?
-
может установить и проиндексировать его с домашнего компа, а потом базу закачать?
-
А очень даже просто...
Допустим у тебя есть текстовый файл pass.txt где лежит служебная информация для скриптов в корне cgi-bin.
в любом случае, чтоб этот файл был проиндексирован, на него должна стоять прямая ссылка мои пароли! ;)
-
на него должна стоять прямая ссылка
не понял... Где она должна стоять?
-
не понял... Где она должна стоять?
И я про то же, с учетом того, что индексацию мы проводим через HTTP. Конечно, если ты про open(FILE, \'passwords,txt\')... но это вообще несерьезно, также как и индексирование кода. Просто чел-к поначалу неудачно выразился и направил нас по ложному пути ;)
-
Индексация страниц 500-а нормально проходит?
Это как??
Вряд ли это ограничение по времени, потому что скрипт пишет, что всё нормально, я одну страницу отиндексировал.
-
Это как??
Это так, что на всех халявных серверах (и там где выставлено предельное значение исполнения скриптов) скрипт index умирает на 300-400 страницах...
Вряд ли это ограничение по времени, потому что скрипт пишет, что всё нормально, я одну страницу отиндексировал.
А вот и не врядли...
Создай 500 (пусть одинаковых) страниц и проиндексируй их.
Посмотри на результат. Правда если у тебя будет всего 10 страниц, то вопросы снимаются...
-
Кстати, иногда полезно читать документацию на скрипт и ЧаВо:
http://risearch.org/rus/risearch/install.htm
Пожалуйста учтите еще одно обстоятельство: большинство вебсерверов не позволяют CGI скриптам работать более 30-60 секунд. Если за это время скрипт не закончит свою работу, сервер его просто убьет. Поэтому сайты объемом более нескольких мегабайт необходимо индексировать либо запуская скрипт через UnixShell, либо на локальной машине.
-
Да читал я и доку и ЧаВы... Он нормально работает, сервер локальный, т.е. можно писать хоть
@start_url=qw(localhost);
Скрипты пашут до минуты - точно!
Но всё равно, не хотит он через http индексировать.
-
Но всё равно, не хотит он через http индексировать.
и ничего не кричит не ругается, даже в еррлогах?
Если рассуждать логично, то скрипт рабочий... значит проблема в тебе, сервере или в вас обоих ;)
-
Попробовал такие же настройки:
@start_url=qw(http://www.yandex.ru/);
@allow_url=qw(http://www.yandex.ru/);
Все работает, страниц 20 скрипт проиндексировал, потом я его остановил. В скрипте или конфиге больше ничего не менялось?
-
Да вроде ничего такого не менялось супер-пуперного в конфиге...
Может попробовать взять масловый конфиг и там только поменять эти 2 параметра для паука?
-
Я брал стандартный конфиг версии 0.99.08, менял только эти две строки и все работало. Что он при этом пишет? Детали можно на мыло отправить: risearch@risearch.org
-
О! Свеженький конфиг взял - и жить легче стало! Странно, и что я там такого натворил, что он у меня не пахал? :) мдааа...
Спасибо всем еще раз за идеи всяческие!