Forum Webscript.Ru
Программирование => Теория, алгоритмы и стандарты => Тема начата: obytatel от 23 Февраля 2003, 03:25:19
-
Как реализовать поиск в сети файлов по названию и расширению (эдакий поисковый робот для личного использования хочу).
-
obytatel
э....
а в какой сети искать (в том смысле, что может тебе надо использовать не [только] фтп доступ, а например, виншары...)?
-
Мы писали лабу такую когда-то... На машинах устанавливается программное обеспечение (поисковые клиенты, смотри чтобы его только антивирус за троян не принял :)), которое слушает порт, все запросы на поиск идут к серверу, который отслеживает состояние своих поисковых клиентов на машинах и отправляет на них пришедшие запросы. Клиенты ищут и отвечают серверу, он в свою очередь выкидывает результат на запросную форму. Суть в том, что не используется поиск по виндовым шарам (поиск происходит локально на компе), минус в том, чтобы установить поисковые клиенты на машинах надо быть на них админом.
в какой сети искать
если сеть Интернет, то Google тебе покатит :)
-
ThE0ReTiC в сети конешно ж глобальной. На сколько я просёк под виншары ты предлагаешь юзать анализ кода страниц удалённого сервера на предмет урлов на типа *.rar и прочее? А другие варианты есть?
Yukko Гугла не покатит - Я своё хочу, родное: так шоб запустил свою виртуальную тварьку на сутки погулять по инету, а оно потом домой возвращается и тянет с собой два ж/д-состава порн.... извините оговорился... mp3
-
obytatel
Ну можно и по урлам (если лезть через http)
если по анонимным Ftp, то получаешь список файлов корневой директории и обходишь все по списку рекурсивно (на предмет прочесывания поддиректорий), ища файлы определенного типа...
-
ThE0ReTiC Ну это всё понятно. Но неужели нет других способов - ведь иногда поисковые роботы такие файлы цепляют, которые в принципе не пологен давать отсмотреть не под анонимным ftp, а по урлам и подавно.
Примером может служить старая байка, о том что поисковые роботы цепляли файлы на вроде kredit-card.dat с реальными номерами кредиток.
-
Легенды все.
Ты программист или где ? Или даже логически подумай - откуда информации то браться.
:)
-
Принцип работы таков:
1)Поиск и добавление в базу нового сервера на индаксирование. (обычно бераться с http или добавляются вледельцами серверов)
2)Пробегание по всем его папкам и вытаскивание оттуда названия файлов, их расширение и полный url.
-
2)Пробегание по всем его папкам и вытаскивание оттуда названия
файлов, их расширение и полный url.
Вот в этом моменте пожалуйста по подробней, а то я как-то слабо улавливаю - как это возможно, чтобы нам вот так вот и дали возможность "пробежать по всем папкам". Это ж что ж получается, что админам плотють деньги задарам - если защита нулевая. Это я с своего хоста пускаю шо нить навроде readdir (в реализации php (нет не подумайте - я в курсе что эта функция не работает с удалёнными хостами)) на удалённый хост и... и всё... пилец... можно на время позаимствовать кое-какие базы данных (с кредитками теми же - почему бы и нет), пару десятков скриптов каких-нить инет-магазинов... и всё просто так за даром? Видимо что-то я в своей жизни пропустил 8(
Oak спасибо ты первый отнёс меня к класу програмёров
-
> Видимо что-то я в своей жизни пропустил
Угу... Здравый смысл:)
"Пробегание по всем его папкам" в данной ситуации следует понимать как пробегание по всем _дозволенным_ папкам.
-
КшЫуфксрук
есть наработки?
-
Н-так. Ну ftp пока забудем. Как быть с http? Если подавать get-запрос на сервер к папке, то иссесно оно мне вернёт не листинг содержимого папки, а index.* или default.* (или ещё какую дрянь). Даже если он мне вернёт листинг содержимого папки, то в большинстве случаев - надо отбить руки вебмастеру (за кривость) или админу (за лень). Если я не прав - то как ты себе это представляешь?
-
obytatel
индексируй все внутренние ссылки сайта и записывай себе куда-нибудь
-
В случае HTTP побегание по дозволенным папкам следует понимать как скачивание всего сайта начиная с главной страницы и следуя далее по ссылкам (если показ списка файлов запрещен).
Я не понимаю, какой ответ ты хочешь получить? Ты и сам все прекрасно знаешь, что можно, а что нельзя. Или ты надеешься, что тут тебе подскажут способ как получить список всех файлов на сервере? А еще лучше не только список, но и сами файлы:)
P.S. Слухи о том, что Гугль выдавал в результатах поиска конфиденциальные документы говорят не о том, что у Гугль знает какой-то секрет, а о том, что вебмастера тех сайтов облажались. Причем есть разные способы облажаться. Например, достаточно положить документ куда-нибудь в пределах видимости вебсервера (но нигде не делать ссылку на него) и запросить этот документ через прокси. А где-нибудь может оказаться ссылка на логи этого прокси (я достаточно регулярно натыкаюсь в результатах поиска на различные логи). Или запросить документ с включенным гугльбаром и Гугль узнает об этом документе. Не говоря уже про разрешение показа индекса директории.
-
КшЫуфксрук
Логи проксей - подробней об этой дряни можно, а то я вовсе без понятия.
-
obytatel, гы... :D
Возмем filesearch.ru, вы думаете, его создатели - крутые хакеры. раз позволяют гулять по папкам с открытым доступом? А как они узнают о них? Подумай над этим... ;)
-
http://www.yandex.ru/yandsearch?text=Squid+User+Access+Reports&rpt=rad
http://www.vegu.ru/squid-stat/usage_200303.htm
-
Kwazar
А если думать в напряг и мне за это никто денег не платит? 8(
КшЫуфксрук пасибо за линки
-
А если думать в напряг
[off] моя б воля, я бы таким доступ на форум закрывал [/off]
-
Макс
извини - денёк плохой был