Добрый вечер
Прошу подсказать технологию работы следующего скрипта.
Скрипт читает информацию из файлов экспорта новостей, которые предлагают различные сервера.
Скрипт записывает прочитанное в БД.
Поскольку скрипт запускается каждый час, то чтобы ранее опубликованная на сайте новость, уже существующая в БД, снова туда не записалась, скрипт, запускаемый под cron в начале каждого часа, собирает только новости, появившиеся за конкретный час.
Теперь - суть проблемы.
Большинство сайтов дают в файле экспорта только дату/время, заголовок новости и ссылку. Согласитесь, неинтересно отправлять посетителя страницы, кликнувшего на ссылку, на другой сервер
Значит, надо экспортировать (грабить) и сами новости. А потом выводить их со всеми копирайтами.
Как, отправив робота по ссылке за текстом новости, объяснить ему, где у новости начало и конец?
Начало-то найти можно, если ключом начала считать зголовок. А окончание как найти?
Есть ли какие-то правила на этот счет?
Или, может быть у вас уже есть опыт решения этой проблемы?
Заранее благодарен за помощь.
Andrew,
saratoff@nm.ru