Forum Webscript.Ru

Общие => Веб-технологии => Тема начата: Dj Fly от 04 Мая 2004, 14:44:36

Название: Автоматическое определение кодировки страницы
Отправлено: Dj Fly от 04 Мая 2004, 14:44:36
Поискав нечто подобное на форуме, ничего не нашёл, посему надеюсь на эту созданную тему.

Скрипт тащит сокетом страницы с другого сервера. При получении контента - он разбивается на слова - по сути это своего рода поисковый сервер.
Но для составления уникального словаря необходимо всё привести к одному стандарту. И для этого приведения необходимо знать в какой кодировке была создана вытаскиваемая страница.
Стандартные методы, а именно: Ответ сервера по запросу HEAD, META-теги - могут не содержать ничего касательно кодировки текущей страницы.
Каким образом определить кодировку страницы.
Причём, содержимое может быть на любом языке, то есть лингвистические методы подбора частоты встречающихся символов русского или украинского языков не особо применимы, ибо работают лишь с узким набором языков.
Существует ли нечто универсальное для определения кодировки документа? Алгоритм или некий метод, запрос или что-то ещё?
Название: Автоматическое определение кодировки страницы
Отправлено: Меняздесьдавнонет от 04 Мая 2004, 17:38:13
кросспостинг
Название: Автоматическое определение кодировки страницы
Отправлено: Dj Fly от 04 Мая 2004, 19:24:51
Прошу прощения, я не знал в какую тему это запостить, ибо это в равной степени относится и к веб-технологиям и к рнр, поскольку реализация этого алгоритма важна на рнр...
:-)
Название: Автоматическое определение кодировки страницы
Отправлено: Меняздесьдавнонет от 04 Мая 2004, 19:36:16
это относится к соблюдению правил форума и элементарных положений сетевого этикета.
Название: Автоматическое определение кодировки страницы
Отправлено: Dj Fly от 04 Мая 2004, 20:55:09
[OFF]Прошу прощения здесь, ибо согрешил я, нарушив сии правила в данном случае. :-) Более не повторится. Однако, правила этикета и не только сетевого, прошу соблюдать, также и в отношении меня.
Заранее спасибо. :-)
Искренне Ваш[/OFF]