Автор Тема: wget и robots.txt  (Прочитано 4788 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Xander

  • санитар леса
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1780
  • +0/-0
  • 2
    • Просмотр профиля
wget и robots.txt
« : 04 Октября 2003, 21:17:42 »
никто не знает, нельзя сделать так, чтобы wget не реагировал на

User-agent: Wget
Disallow: /

?

А то некоторые веб-мастера, они такие умные...
•••Jah\'d never let us down!•••

Оффлайн Yukko

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1586
  • +0/-0
  • 0
    • Просмотр профиля
    • http://estrabota.com.ua
wget и robots.txt
« Ответ #1 : 04 Октября 2003, 21:52:10 »
Xander
прочитай внимательно wget --help HTTP options:

HTTP options:
       --http-user=USER      set http user to USER.
       --http-passwd=PASS    set http password to PASS.
  -C,  --cache=on/off        (dis)allow server-cached data (normally allowed).
  -E,  --html-extension      save all text/html documents with .html extension.
       --ignore-length       ignore `Content-Length\' header field.
       --header=STRING       insert STRING among the headers.
       --proxy-user=USER     set USER as proxy username.
       --proxy-passwd=PASS   set PASS as proxy password.
       --referer=URL         include `Referer: URL\' header in HTTP request.
  -s,  --save-headers        save the HTTP headers to file.
  -U,  --user-agent=AGENT    identify as AGENT instead of Wget/VERSION.
       --no-http-keep-alive  disable HTTP keep-alive (persistent connections).
       --cookies=off         don\'t use cookies.
       --load-cookies=FILE   load cookies from FILE before session.
       --save-cookies=FILE   save cookies to FILE after session.
работа в Украине

Оффлайн Yukko

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1586
  • +0/-0
  • 0
    • Просмотр профиля
    • http://estrabota.com.ua
wget и robots.txt
« Ответ #2 : 04 Октября 2003, 21:54:25 »
[OFF] а че во флейм-то???[/OFF]
работа в Украине

Оффлайн Xander

  • санитар леса
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1780
  • +0/-0
  • 2
    • Просмотр профиля
wget и robots.txt
« Ответ #3 : 04 Октября 2003, 23:13:07 »
Yukko
ну и где здесь строчка ignore robots.txt?
заменять user-agent я пробовал, не помогает.
Вот, собственно, URL, который я ытался слить:
http://clubpro.spb.ru/cominside/

а во флейм потому что не решил, куда это точнее определить.
•••Jah\'d never let us down!•••

Оффлайн Yukko

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1586
  • +0/-0
  • 0
    • Просмотр профиля
    • http://estrabota.com.ua
wget и robots.txt
« Ответ #4 : 05 Октября 2003, 15:07:35 »
Это... сразу не догнал... извини, берем wget и запускаем его вот таким образом:
wget -m -np --output-file=output  --execute robots=off -d -S -T3 -s --user-agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; FunWebProducts)" --header="Accept-Encoding: gzip, deflate" http://clubpro.spb.ru/cominside/

Можно еще добавить:
  -p,  --page-requisites  

Чтобы получить картинки для просмотра в оффлайне, но я не пробовал, а так та строка, которую я тебе привел, выгребает с сайта все, сам пробовал!
работа в Украине

Оффлайн Yukko

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1586
  • +0/-0
  • 0
    • Просмотр профиля
    • http://estrabota.com.ua
wget и robots.txt
« Ответ #5 : 05 Октября 2003, 15:12:03 »
Да... отдельно про robots.txt.... Имеем конфиг .wgetrc пишем туда:
robots = off

Либо с коммандной строки:
--execute robots=off

между execute и robots пробел... вот и все :)

А топик надо было в Навигатор, там уже есть топик про wget (Extreme называется...:) )
работа в Украине

Оффлайн Xander

  • санитар леса
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1780
  • +0/-0
  • 2
    • Просмотр профиля
wget и robots.txt
« Ответ #6 : 06 Октября 2003, 19:15:28 »
спасибо
•••Jah\'d never let us down!•••

Оффлайн Yukko

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1586
  • +0/-0
  • 0
    • Просмотр профиля
    • http://estrabota.com.ua
wget и robots.txt
« Ответ #7 : 06 Октября 2003, 19:22:43 »
Цитировать
Xander:
спасибо

Ты, это... если че, заходи (с)Жил был пес...
:)
работа в Украине

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28