Автор Тема: Трабл со скриптами экспорта новостей  (Прочитано 1983 раз)

0 Пользователей и 1 Гость просматривают эту тему.

  • Гость
Добрый вечер
Прошу подсказать технологию работы следующего скрипта.
Скрипт читает информацию из файлов экспорта новостей, которые предлагают различные сервера.
Скрипт записывает прочитанное в БД.
Поскольку скрипт запускается каждый час, то чтобы ранее опубликованная на сайте новость, уже существующая в БД, снова туда не записалась, скрипт, запускаемый под cron в начале каждого часа, собирает  только новости, появившиеся за конкретный час.
Теперь - суть проблемы.
Большинство сайтов дают в файле экспорта только дату/время, заголовок новости и ссылку. Согласитесь, неинтересно отправлять посетителя страницы, кликнувшего на ссылку, на другой сервер
Значит, надо  экспортировать (грабить) и сами новости. А потом выводить их со всеми копирайтами.
Как, отправив робота по ссылке за текстом новости, объяснить ему, где у новости начало и конец?
Начало-то найти можно, если ключом начала считать зголовок. А окончание как найти?
Есть ли какие-то правила на этот счет?
Или, может быть у вас уже есть опыт решения этой проблемы?
Заранее благодарен за помощь.

Andrew,
saratoff@nm.ru

Оффлайн Oak

  • Дерево
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1481
  • +0/-0
  • 2
    • Просмотр профиля
    • http://
Трабл со скриптами экспорта новостей
« Ответ #1 : 12 Мая 2002, 18:36:34 »
Нуууу вопервых не всем сайтам это понравится.
Пока ты показываешь анонс - то нет проблем, но как только всю новость - тут встает вопрос денег за баннерные показы.
:)

А делать .... К сожалению для каждого новостного сайта нада подбирать свою строку окончания текста.

Да и начала тоже (если они оформили его как-то html тегами).
[основной броузер - SeaMonkey] Netscape Communicator 4 - is the best :) // see sources

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28