Автор Тема: Поиск (определение контента)  (Прочитано 6781 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн xmolex

  • Завсегдатай
  • Пользователь
  • **
  • Сообщений: 75
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
Поиск (определение контента)
« : 12 Июля 2006, 18:16:38 »
Здравствуйте уважаемые коллеги.
 Работаю сейчас над разработкой поисковой машины. Когда анализируешь страницы на ссылки, попадаются адреса скриптов, которые кидают тебя на скачивание файлов. Но качать файлы программа не должна. Существует ли какой-нибудь метод для определения, что мы качаем текст (html) или бинарник?
Не знаю даже где искать (наверное слова не те подобрал для поисковика), может кто ссылочку подкинет или опытом поделится. Заранее благодарен.

Оффлайн arto

  • Ветеран
  • *****
  • Сообщений: 699
  • +0/-0
  • 2
    • Просмотр профиля
Поиск (определение контента)
« Ответ #1 : 12 Июля 2006, 18:52:01 »
Content-Type

Оффлайн xmolex

  • Завсегдатай
  • Пользователь
  • **
  • Сообщений: 75
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
Поиск (определение контента)
« Ответ #2 : 13 Июля 2006, 10:50:20 »
Может подскажете как получить только заголовок. Что-то ничего не нашел опять.

Оффлайн arto

  • Ветеран
  • *****
  • Сообщений: 699
  • +0/-0
  • 2
    • Просмотр профиля
Поиск (определение контента)
« Ответ #3 : 13 Июля 2006, 11:17:32 »
perldoc LWP::Simple | less -p head

Оффлайн xmolex

  • Завсегдатай
  • Пользователь
  • **
  • Сообщений: 75
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
Поиск (определение контента)
« Ответ #4 : 13 Июля 2006, 11:46:50 »
Спасибо. Только less в windows работать не будет :)

Оффлайн arto

  • Ветеран
  • *****
  • Сообщений: 699
  • +0/-0
  • 2
    • Просмотр профиля
Поиск (определение контента)
« Ответ #5 : 13 Июля 2006, 12:06:54 »
у меня работает

Оффлайн cr4ck3r

  • Фанат Perl
  • Постоялец
  • ***
  • Сообщений: 146
  • +0/-0
  • 2
    • Просмотр профиля
    • http://perlmonks.org.ru
Поиск (определение контента)
« Ответ #6 : 13 Июля 2006, 15:17:09 »
Для винды аналог:
perldoc LWP::Simple | find /I "head"
Ворота в perl - perlmonks.org.ru

Оффлайн AnnA

  • Фанатка форума
  • Старожил
  • ****
  • Сообщений: 263
  • +0/-0
  • 2
    • Просмотр профиля
    • http://
Поиск (определение контента)
« Ответ #7 : 13 Июля 2006, 18:41:22 »
Цитировать
xmolex:
Только less в windows работать не будет

http://www.greenwoodsoftware.com/less/download.html
и у Вас будет работать. :)
пока-пока. :)

Оффлайн xmolex

  • Завсегдатай
  • Пользователь
  • **
  • Сообщений: 75
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
Поиск (определение контента)
« Ответ #8 : 14 Июля 2006, 12:51:18 »
Спасибо за заботу, только у меня основная система FreeBSD. А здесь флуд начался. Лучше подскажите
почему возникает ошибка "Prototype mismatch: sub main::head: none vs ($) at robot.pl line 3". Программа работает, но почему она выводится?
На третьей строке я подгружаю модуль "use LWP::Simple;"
Вызов делаю "my($head) = head($base);".
Заранее благодарен.

Оффлайн arto

  • Ветеран
  • *****
  • Сообщений: 699
  • +0/-0
  • 2
    • Просмотр профиля
Поиск (определение контента)
« Ответ #9 : 14 Июля 2006, 13:03:56 »
а какие еще модули используются?

Оффлайн xmolex

  • Завсегдатай
  • Пользователь
  • **
  • Сообщений: 75
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
Поиск (определение контента)
« Ответ #10 : 14 Июля 2006, 15:32:28 »
use CGI qw(:all);

Оффлайн arto

  • Ветеран
  • *****
  • Сообщений: 699
  • +0/-0
  • 2
    • Просмотр профиля
Поиск (определение контента)
« Ответ #11 : 14 Июля 2006, 16:37:28 »
main::head -- ?

Оффлайн xmolex

  • Завсегдатай
  • Пользователь
  • **
  • Сообщений: 75
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
Поиск (определение контента)
« Ответ #12 : 15 Июля 2006, 10:53:07 »
Чего? Я так понял, что в CGI и LWP::Simple есть sub head, как быть?

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28