Forum Webscript.Ru

Разное => Флейм => Тема начата: Xander от 04 Октября 2003, 21:17:42

Название: wget и robots.txt
Отправлено: Xander от 04 Октября 2003, 21:17:42
никто не знает, нельзя сделать так, чтобы wget не реагировал на

User-agent: Wget
Disallow: /

?

А то некоторые веб-мастера, они такие умные...
Название: wget и robots.txt
Отправлено: Yukko от 04 Октября 2003, 21:52:10
Xander
прочитай внимательно wget --help HTTP options:

HTTP options:
       --http-user=USER      set http user to USER.
       --http-passwd=PASS    set http password to PASS.
  -C,  --cache=on/off        (dis)allow server-cached data (normally allowed).
  -E,  --html-extension      save all text/html documents with .html extension.
       --ignore-length       ignore `Content-Length\' header field.
       --header=STRING       insert STRING among the headers.
       --proxy-user=USER     set USER as proxy username.
       --proxy-passwd=PASS   set PASS as proxy password.
       --referer=URL         include `Referer: URL\' header in HTTP request.
  -s,  --save-headers        save the HTTP headers to file.
  -U,  --user-agent=AGENT    identify as AGENT instead of Wget/VERSION.
       --no-http-keep-alive  disable HTTP keep-alive (persistent connections).
       --cookies=off         don\'t use cookies.
       --load-cookies=FILE   load cookies from FILE before session.
       --save-cookies=FILE   save cookies to FILE after session.
Название: wget и robots.txt
Отправлено: Yukko от 04 Октября 2003, 21:54:25
[OFF] а че во флейм-то???[/OFF]
Название: wget и robots.txt
Отправлено: Xander от 04 Октября 2003, 23:13:07
Yukko
ну и где здесь строчка ignore robots.txt?
заменять user-agent я пробовал, не помогает.
Вот, собственно, URL, который я ытался слить:
http://clubpro.spb.ru/cominside/

а во флейм потому что не решил, куда это точнее определить.
Название: wget и robots.txt
Отправлено: Yukko от 05 Октября 2003, 15:07:35
Это... сразу не догнал... извини, берем wget и запускаем его вот таким образом:
wget -m -np --output-file=output  --execute robots=off -d -S -T3 -s --user-agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; FunWebProducts)" --header="Accept-Encoding: gzip, deflate" http://clubpro.spb.ru/cominside/

Можно еще добавить:
  -p,  --page-requisites  

Чтобы получить картинки для просмотра в оффлайне, но я не пробовал, а так та строка, которую я тебе привел, выгребает с сайта все, сам пробовал!
Название: wget и robots.txt
Отправлено: Yukko от 05 Октября 2003, 15:12:03
Да... отдельно про robots.txt.... Имеем конфиг .wgetrc пишем туда:
robots = off

Либо с коммандной строки:
--execute robots=off

между execute и robots пробел... вот и все :)

А топик надо было в Навигатор, там уже есть топик про wget (Extreme называется...:) )
Название: wget и robots.txt
Отправлено: Xander от 06 Октября 2003, 19:15:28
спасибо
Название: wget и robots.txt
Отправлено: Yukko от 06 Октября 2003, 19:22:43
Цитировать
Xander:
спасибо

Ты, это... если че, заходи (с)Жил был пес...
:)