Forum Webscript.Ru
Программирование => PHP => Тема начата: biblos от 06 Июля 2002, 13:05:23
-
Здраствуйте,
Многие из нас, кто занимался публикацией баз данных, сталкивался с проблемой защиты от несанкционированного копирования сайта (читайте базы данных).
Возникает несколько проблем:
1) различить обыкновенных юзеров от роботов
2) среди роботов различить грабберов и роботов поисковых машин
Если развит ету тему, то в соотвествии к роботу поисковой машины, можно генерировать оптимизированую страницу под конкретный поисковик.
Дамы и господа, у кого какие идеи?
-
Никак, закройте сайт, если так боитесь растаться с информацией.
-
biblos
Stek Прав. Никак не закроешь.
-
Как всегда много умных советов.
У меня есть менее умный, но худо бедно работающий совет.
если запросить данные браузера и там будет такой Браузер : ia_archiver
- то юто точно не юзер. Только надо знать какие точно грабят.
Например Teleport
Надо только знать их все :) и отсечь.
Как я их находил в свое время? да очень просто:
либо собирайте ошибки с сайта и смотрите какие браузеры их вызвали.
Ну или сделайте невидимый для глаза линк. Человек по такому линку не кликнет, а безмозглая машина - влет. Ну а с того линка вам письмо. На следующий день ваш этот робот больше не ограбит
a@mail.dux.ru
-
В любом случае, если кто-то сильно захочет взять сайт граббером, то ничто ему это не помешает сделать.
Конечно, можно в .htaccess с помощью mod_rewrite отказывать в доступе некоторым USER AGENT\'ам. Но опять же нужен список всех грабберов, а если он будет очень большим (а навярняка он таким будет), то это может существенно повысить нагрузку на сервер. Кроме того, я не раз встречал грабберы, которые шлют заголовок User-Agent MSIE или маскируются под другие броузеры. Так что на 100% защититься невозможно.
-
Ну или сделайте невидимый для глаза линк. Человек по такому линку не кликнет, а безмозглая машина - влет. Ну а с того линка вам письмо. На следующий день ваш этот робот больше не ограбит
Если поставить блокировку на автомат - прощай поисковые машины. Ну а если в ручную смотреть ... то ваш сайт человек как правило грабит один раз, так что все равно успеет.
если запросить данные браузера и там будет такой Браузер : ia_archiver
Да любой уважающий себя грабер маскируется прекрастно.. он вполне понимает и куки, и яву, и пароли для авторизации :)
-
Ну если очень-очень надо то, мне кажеться, вполне осуществимо.
Сессиями отслеживать каждого посетителя и на какой страничке он находиться. Если окажеться что кто-то просматривает одновременно N страниц со скоростью M страниц в минуту, то это либо робот либо мастер суперскорочтения.
ИМХО, дурацкая это затея. Куча работы и мало толку.
-
Извените, был в отпуске, не мог принимать участие в дискусии.
Абсолютно согласен с мненинием, что застраховаться на 100% невозможно!
Но, на мой взгляд все-таки есть резон внедрять ограничения для предотвращения несанкционированого копирования, посколько для копирования нужен будет "умный граббер", для розработки которого нужен опытный програмист, которому нужно будет заплатить соответсвуючий гонорар $$$.
Улавливаете мысль, если сделать копирование нетривиальной задачей, тогда очередной злоумышленник хорошо подумает "стоит ли игра свеч?"
-
Дилдос.
Голова человеку дана не только для того, чтобы в форумы писать, но и для того, чтобы думать.
В частности, над собственными словами.
Итак, берем твои собственные и чуть-чукть из них вырезаем.
Но, на мой взгляд все-таки есть резон внедрять ограничения для предотвращения несанкционированого копирования, для розработки которого нужен опытный програмист, которому нужно будет заплатить соответсвуючий гонорар $$$.
А вот теперь сам прикинь, сколько стоит твоя сверхсекретная инфа, и сколько времени тире денег ты готов потратить на защиту?
Я потом я приду с примитивным флашгетом и совершенно не напрягаясь утяну всю твою инфу, которая, я 100% уверен, мне никуда не вперлась.
-
Меня больше всего радует во всем этом разительное несоответствие усилий по защите с усилиями по обходу.
Ты потеешь, корпишь над списком роботов, а я в шесть секунд прикидываюсь бровзером.
В общем, флаг в руки и барабан на шею.
-
Очень интересно, всегда поражался, как могут некоторие индивиды резко критиковать все, что им не понятно или несовсем понятно.
-
Мысль блокировки по user agent полный абсурд!
Реально я вижу 2 способа:
- внедрение невидимых ссылок и блокировка IP
- анализ скорости просмотра страниц.
PS: все више сказаное касается динамичеких страниц на основе БД, которая ежедневно оновляеться.
-
анализ скорости просмотра страниц
Ну ка, вот с этого места поподробнее, пожалуйста....
-
внедрение невидимых ссылок и блокировка IP
Чушь собачья. Есть такая хорошая программулина - MultiProxy называется. Дык вот, она жует список из полутысячи анонимных прокси, тратит минут пять на их проверку и висит в трее. Каждое новое соединение происходит через случайно выбранный прокси. Итак, ты видишь, что кто-то грабит твой сайт, скрипт тут же блокирует доступ с данного IP и... А собственно говоря, ничего. Потому как злоумышленник грабит файлы уже через другой прокси с другим IP. Или у тебя на сайте больше пятисот страниц?
анализ скорости просмотра страниц.
Предроложим даже, что у тебя это получилось. А как ты собираешься блокировать юзверей??? (см. предудыщий пункт)
-
Ето пока на уровне идеи, суть следуящая:
почему б не обьеденить систему внутринней статистики с защитой от копирования.
Например, при запросе некоторой страницы скрипт анализирует преведущие хиты данного "пользователя".
Повидение робота должно быть довольно характерным и описиваемым.
К сожелению, немогу навести конкретных примеров.
-
Stek :
Если поставить блокировку на автомат - прощай поисковые машины.
Ну, для поисковых машин можно robots.txt написать. А грабберы туда не смотрят...
Хотя, конечно - это глупо...
biblos :
Повидение робота должно быть довольно характерным и описиваемым.
Помню, как-то мне понадобилось с одного сайта скачать страниц 40-50(вот люблю я читать в офф-лайне). А вот граббера под рукой не было. Так я зашел на одну страницу, нажал "сохранить как" и "", потом на следующую, на следующую и т.д.
Боюсь, что твой алгоритм меня бы точно с граббером перепутал...
А так много кто делает.
-
Вполне понятно что не каждый сайт нуждается в подобной защите, не некоторым ето ИМХО необходимо.
Мой пример - БД предприятий і товаров - желтые страницы. Если грабить страницу по странице - ето около 50мб трафика на одного робота и как понимаете ета цифра растет.
Я заметил, что некоторие грабят переодически - а ето одни убитки (во-первих трафик, во-вторих если нужна база в оффлайн- так можно купить СD) .
Думаю, есть множество других сайтов, где есть нужда приминить алгоритмы защиты. Например Яндекс, использует невидимые ссилки. Так что не нужно задаваться вопросом "а нужно ли ето?". Если неинтересно или вам лично не нужно - ето совсем не значит что и дригим ето безразлично.
-
biblos
Ты чего распелся-то?
Ты делай-делай.
Как сделаешь - не забудь ссылку дать. На свои желтые страницы. Просто по приколу посмотреть. Как ты обламываешь честных пользователей и как , кому надо, посмеиваясь ,Все равно инфу тфнут с тебя, ха ха ха
Я, тебе, кстати, еще один вариант подкину.
Есть в РНР такая штука - GD.
можно картинки генерить.
Так вот ты текст в виде картинки выводи!!!
Ни одна собака не украдет!
Ну, если только, OCR не поставит :-))))))
-
biblos
Смешо. :eek:
RomikChef
Ну, если только, OCR не поставит
Если JPEG с качеством 25 сделать - ни один OCR не поможет :):)
-
Можно еще Flash и PDF...
В общем раздолье для ... гхм... программиста... скажем так.