Автор Тема: Автоматическое определение кодировки страницы (Прочитано 3299 раз)

Dj Fly · « : 04 Мая 2004, 14:45:08 »

Поискав нечто подобное на форуме, ничего не нашёл, посему надеюсь на эту созданную тему.

Скрипт тащит сокетом страницы с другого сервера. При получении контента - он разбивается на слова - по сути это своего рода поисковый сервер.
Но для составления уникального словаря необходимо всё привести к одному стандарту. И для этого приведения необходимо знать в какой кодировке была создана вытаскиваемая страница.
Стандартные методы, а именно: Ответ сервера по запросу HEAD, META-теги - могут не содержать ничего касательно кодировки текущей страницы.
Каким образом определить кодировку страницы.
Причём, содержимое может быть на любом языке, то есть лингвистические методы подбора частоты встречающихся символов русского или украинского языков не особо применимы, ибо работают лишь с узким набором языков.
Существует ли нечто универсальное для определения кодировки документа? Алгоритм или некий метод, запрос или что-то ещё?

CLiI{er · « **Ответ #1 :** 04 Мая 2004, 15:22:00 »

Цитировать

Существует ли нечто универсальное для определения кодировки документа?

Да конечно не существует. Google - и тот ошибается.

Для начала, можно попробовать mb_detect_encoding()
Отличает японский от русского очень хорошо.

Новости:

Автор Тема: Автоматическое определение кодировки страницы (Прочитано 3299 раз)

Dj Fly

Автоматическое определение кодировки страницы

CLiI{er

Автоматическое определение кодировки страницы