Автор Тема: Какой скрипт поиска по сайту на Перле самый-самый?  (Прочитано 9767 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Vitos

  • Завсегдатай
  • Новичок
  • *
  • Сообщений: 31
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
Нужно чтобы он искал и в cgi-директории....
« Последнее редактирование: 24 Января 2002, 15:19:18 от Vitos »
Люблю лабать я на Перле!
:super:

Оффлайн NeoNox

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 3012
  • +0/-0
  • 0
    • Просмотр профиля
Цитировать
Нужно чтобы он искал и в cgi-директории....

А это еще зачем?
Чтобы облегчить работу хакеру?
The documentations is your friend

Оффлайн Vitos

  • Завсегдатай
  • Новичок
  • *
  • Сообщений: 31
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
Весь сайт - это большой cgi-скрипт...
Чего ж тады делать поисковику, если нету html страниц?
Люблю лабать я на Перле!
:super:

  • Гость
Надо заметить, что в cgi-bin сайты не хранятся. Даже если сайт сделан на cgi-движке, все данные хранятся не в cgi-bin, а в public_html

Оффлайн Vitos

  • Завсегдатай
  • Новичок
  • *
  • Сообщений: 31
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
Сайты хранятся там, где мне удобно было их разместить :)
Какие-то данные хранятся в cgi-bin, какие то и в html директории.
Люблю лабать я на Перле!
:super:

Оффлайн NeoNox

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 3012
  • +0/-0
  • 0
    • Просмотр профиля
Цитировать
Чего ж тады делать поисковику, если нету html страниц?

у тебя скрипт информацию откуда берет? из БД? если сам структуру создавал значит сам и пиши.
Цитировать
Надо заметить, что в cgi-bin сайты не хранятся.

Очень даже хранятся :). Шаблоны и скрипты и бд - все в cgi-bin !
The documentations is your friend

Оффлайн NeoNox

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 3012
  • +0/-0
  • 0
    • Просмотр профиля
Цитировать
Какие-то данные хранятся в cgi-bin, какие то и в html директории.

То есть, структуры никакой нет?
The documentations is your friend

Оффлайн Lion

  • Фанат форума
  • Старожил
  • ****
  • Сообщений: 474
  • +0/-0
  • 0
    • Просмотр профиля
А может тебе проще яндекс заставить искать по своему сайту ?
http://yandex.ru/info/addyandex.html  тут написано как сделать что бы поставить на свой сайт яндексовскую форму и что б он искал только по твоему сайту...

Оффлайн NeoNox

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 3012
  • +0/-0
  • 0
    • Просмотр профиля
Цитировать
на свой сайт яндексовскую форму и что б он искал только по твоему сайту...

...и отдавал на растерзание всем скрипты и пароли с настройками? Не вариант. Можно RiSearch настроить так, чтобы он искал только в тех каталогах, это это указано.
The documentations is your friend

Оффлайн NAS

  • Неопытный юзер
  • Администратор
  • Ветеран
  • *****
  • Сообщений: 2951
  • +1/-0
  • 1
    • Просмотр профиля
    • http://nhouse.ru
Цитировать
и отдавал на растерзание всем скрипты и пароли с настройками?


О, это как же ?

Оффлайн Green Kakadu

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 2757
  • +1/-0
  • 0
    • Просмотр профиля
    • http://gnezdo.webscript.ru
угу
« Ответ #10 : 23 Января 2002, 16:40:01 »
Цитировать
...и отдавал на растерзание всем скрипты и пароли с настройками?

;) типа прикольно. Если у скрипта права 755 или что-то вроде того, то при вызове яндексом, шмандексом он выдаст лишь то что должен выдать в Content-Type: TEXT/HTML ;)
О каких паролях ты говоришь???

Вопрос иной - что и почему нужно искать? По динамическим страницам, создаваемых скриптом? Тогда нужно использовать скрипт-индексатор который обращается к индексируемым страницам через HTTP, т.е. как к удаленному сайту (модуль LWP)
Если в cgi-bin лежит кучка файлов-страниц, то можно их проиндексировать  как угодно. Глупо конечно индексировать сам код скриптов (через open) ;)
Самое разумное - организовать поиск (с предварительным форматированием данных в соотв. вид) по тем данным, что использует скрипт.
 в исканиях.

Оффлайн Vitos

  • Завсегдатай
  • Новичок
  • *
  • Сообщений: 31
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
Цитировать
Вопрос иной - что и почему нужно искать? По динамическим страницам, создаваемых скриптом? Тогда нужно использовать скрипт-индексатор который обращается к индексируемым страницам через HTTP, т.е. как к удаленному сайту (модуль LWP)

Да, вот именно мне такой поисковик и нужен. Можете подсказать, где такой взять?
А насчёт всяких там поисковиков типа Яндекса и т.д. - надо свой.
Люблю лабать я на Перле!
:super:

Оффлайн Green Kakadu

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 2757
  • +1/-0
  • 0
    • Просмотр профиля
    • http://gnezdo.webscript.ru
ну так
« Ответ #12 : 24 Января 2002, 09:17:16 »
http://risearch.org
Тот самый Risearch ;)
там в комплекте есть скрипт spider.pl который и нужен для вашего случая.
Весьма популярный поисковик с нормальной поддержкой русского языка (ведь многие иностранцы и не подозревают, что кроме английских букв существуют и др. не говоря уж о кодировках).
 в исканиях.

Оффлайн Vitos

  • Завсегдатай
  • Новичок
  • *
  • Сообщений: 31
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
Да Вы что!!
Risearch может еще искать не только в папках? Может еще и через адреса?
Т.е. индексировать сайт всё равно необходимо?
Люблю лабать я на Перле!
:super:

Оффлайн Green Kakadu

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 2757
  • +1/-0
  • 0
    • Просмотр профиля
    • http://gnezdo.webscript.ru
ну да
« Ответ #14 : 24 Января 2002, 10:00:53 »
Цитировать
Да Вы что!!
Risearch может еще искать не только в папках? Может еще и через адреса?

Да, там как бы отдельный робот прилагается, тот самый spider.pl Правада, почему то автор не рекомендует использовать его для индексации большого кол-ва разных сайтов, а для одного-двух удаленных (в общем, вам же это и нужно).
Цитировать
Т.е. индексировать сайт всё равно необходимо?

Ну конечно. Просто в первом случае, файлы индексируются оч.просто - open(FILE, "use LWP::Simple;
my $page_content=get($url);
А дальше идет по сути одно и тоже.
Др. дело если бы вы организовали поиск по тем данным из которых генерятся ваши страницы - тогда индексация была бы не нужна, (а может и нужна ,но индекс будет более чистый).
 в исканиях.

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28