Forum Webscript.Ru

Программирование => Perl => Тема начата: fafl от 01 Ноября 2009, 04:35:10

Название: определить язык страницы
Отправлено: fafl от 01 Ноября 2009, 04:35:10
народ, возникла интересная задача. Допустим получили мы через lwp содержимое страницы по адресу. Как определить основной язык страницы? (ну допустим en, ru, de...)
Название: определить язык страницы
Отправлено: arto от 01 Ноября 2009, 14:28:21
попробовать перевести ?
Название: определить язык страницы
Отправлено: fafl от 01 Ноября 2009, 14:31:48
на кой мне перевод? мне нужно определение языка сайта
или я идею недопонял?
Название: определить язык страницы
Отправлено: arto от 01 Ноября 2009, 15:49:15
а как вы отделите русский от белорусского, например ?
Название: определить язык страницы
Отправлено: fafl от 01 Ноября 2009, 15:53:48
хорошо, конкретизируем и уточним задачу. надо отделять en от ru
Название: определить язык страницы
Отправлено: arto от 01 Ноября 2009, 17:01:17
в русских кодировках используются символы с кодом > 128 (не считая латиницы)
Название: определить язык страницы
Отправлено: arto от 01 Ноября 2009, 17:01:45
ну и отдельные разборки с utf8
Название: определить язык страницы
Отправлено: CGVictor от 01 Ноября 2009, 18:47:18
fafl
В общем случае я бы решал задачу через базисные словари: смотрим степень соответствия тому или иному (процент пересечения с данным словарем статьи), на основании этого делаем выводы.

Размер словаря, на мой взгляд, 7-8К будет достаточно. На выходе будем иметь нечто похожее на браузерный accept: (fr 0.7, en 0.5, ru 0.1).

Может и какой попроще способ есть, сильно не вникал.
Название: определить язык страницы
Отправлено: CGVictor от 01 Ноября 2009, 19:03:42
fafl
Можно попробовать вместо словарей взять шингловую нарезку - конечный вычислительный объем уменьшится. Но тогда надо еще будет смотреть пересечение шингловых словарей между собой - например, у романских они будут совпадать на 30-40%, равно как и у кириллических и т.п.