Автор Тема: Трабл со скриптами экспорта новостей (Прочитано 1994 раз)

« : 12 Мая 2002, 15:12:57 »

Добрый вечер
Прошу подсказать технологию работы следующего скрипта.
Скрипт читает информацию из файлов экспорта новостей, которые предлагают различные сервера.
Скрипт записывает прочитанное в БД.
Поскольку скрипт запускается каждый час, то чтобы ранее опубликованная на сайте новость, уже существующая в БД, снова туда не записалась, скрипт, запускаемый под cron в начале каждого часа, собирает только новости, появившиеся за конкретный час.
Теперь - суть проблемы.
Большинство сайтов дают в файле экспорта только дату/время, заголовок новости и ссылку. Согласитесь, неинтересно отправлять посетителя страницы, кликнувшего на ссылку, на другой сервер
Значит, надо экспортировать (грабить) и сами новости. А потом выводить их со всеми копирайтами.
Как, отправив робота по ссылке за текстом новости, объяснить ему, где у новости начало и конец?
Начало-то найти можно, если ключом начала считать зголовок. А окончание как найти?
Есть ли какие-то правила на этот счет?
Или, может быть у вас уже есть опыт решения этой проблемы?
Заранее благодарен за помощь.

Andrew,
saratoff@nm.ru

Oak · « **Ответ #1 :** 12 Мая 2002, 18:36:34 »

Нуууу вопервых не всем сайтам это понравится.
Пока ты показываешь анонс - то нет проблем, но как только всю новость - тут встает вопрос денег за баннерные показы.

А делать .... К сожалению для каждого новостного сайта нада подбирать свою строку окончания текста.

Да и начала тоже (если они оформили его как-то html тегами).

Новости:

Автор Тема: Трабл со скриптами экспорта новостей (Прочитано 1994 раз)

Трабл со скриптами экспорта новостей

Oak

Трабл со скриптами экспорта новостей