Автор Тема: Автоматическое определение кодировки страницы  (Прочитано 3082 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Dj Fly

  • Simply Dj :-)
  • Постоялец
  • ***
  • Сообщений: 157
  • +0/-0
  • 2
    • Просмотр профиля
    • http://www.digitals-pace.com
Поискав нечто подобное на форуме, ничего не нашёл, посему надеюсь на эту созданную тему.

Скрипт тащит сокетом страницы с другого сервера. При получении контента - он разбивается на слова - по сути это своего рода поисковый сервер.
Но для составления уникального словаря необходимо всё привести к одному стандарту. И для этого приведения необходимо знать в какой кодировке была создана вытаскиваемая страница.
Стандартные методы, а именно: Ответ сервера по запросу HEAD, META-теги - могут не содержать ничего касательно кодировки текущей страницы.
Каким образом определить кодировку страницы.
Причём, содержимое может быть на любом языке, то есть лингвистические методы подбора частоты встречающихся символов русского или украинского языков не особо применимы, ибо работают лишь с узким набором языков.
Существует ли нечто универсальное для определения кодировки документа? Алгоритм или некий метод, запрос или что-то ещё?

Оффлайн Меняздесьдавнонет

  • новичЕк
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 5698
  • +0/-0
  • 2
    • Просмотр профиля
    • http://
кросспостинг

Оффлайн Dj Fly

  • Simply Dj :-)
  • Постоялец
  • ***
  • Сообщений: 157
  • +0/-0
  • 2
    • Просмотр профиля
    • http://www.digitals-pace.com
Прошу прощения, я не знал в какую тему это запостить, ибо это в равной степени относится и к веб-технологиям и к рнр, поскольку реализация этого алгоритма важна на рнр...
:-)

Оффлайн Меняздесьдавнонет

  • новичЕк
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 5698
  • +0/-0
  • 2
    • Просмотр профиля
    • http://
это относится к соблюдению правил форума и элементарных положений сетевого этикета.

Оффлайн Dj Fly

  • Simply Dj :-)
  • Постоялец
  • ***
  • Сообщений: 157
  • +0/-0
  • 2
    • Просмотр профиля
    • http://www.digitals-pace.com
[OFF]Прошу прощения здесь, ибо согрешил я, нарушив сии правила в данном случае. :-) Более не повторится. Однако, правила этикета и не только сетевого, прошу соблюдать, также и в отношении меня.
Заранее спасибо. :-)
Искренне Ваш[/OFF]

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28