Автор Тема: Автоматическое определение кодировки страницы  (Прочитано 3299 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Dj Fly

  • Simply Dj :-)
  • Постоялец
  • ***
  • Сообщений: 157
  • +0/-0
  • 2
    • Просмотр профиля
    • http://www.digitals-pace.com
Поискав нечто подобное на форуме, ничего не нашёл, посему надеюсь на эту созданную тему.

Скрипт тащит сокетом страницы с другого сервера. При получении контента - он разбивается на слова - по сути это своего рода поисковый сервер.
Но для составления уникального словаря необходимо всё привести к одному стандарту. И для этого приведения необходимо знать в какой кодировке была создана вытаскиваемая страница.
Стандартные методы, а именно: Ответ сервера по запросу HEAD, META-теги - могут не содержать ничего касательно кодировки текущей страницы.
Каким образом определить кодировку страницы.
Причём, содержимое может быть на любом языке, то есть лингвистические методы подбора частоты встречающихся символов русского или украинского языков не особо применимы, ибо работают лишь с узким набором языков.
Существует ли нечто универсальное для определения кодировки документа? Алгоритм или некий метод, запрос или что-то ещё?

Оффлайн CLiI{er

  • Завсегдатай
  • Пользователь
  • **
  • Сообщений: 57
  • +0/-0
  • 0
    • Просмотр профиля
    • http://glossword.info/
Цитировать
Существует ли нечто универсальное для определения кодировки документа?


Да конечно не существует. Google - и тот ошибается.

Для начала, можно попробовать mb_detect_encoding()
Отличает японский от русского очень хорошо.
gw веб-песочница жж

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28