определить язык страницы

Программирование > Perl

<< < (2/2)

arto:
в русских кодировках используются символы с кодом > 128 (не считая латиницы)

arto:
ну и отдельные разборки с utf8

CGVictor:
fafl
В общем случае я бы решал задачу через базисные словари: смотрим степень соответствия тому или иному (процент пересечения с данным словарем статьи), на основании этого делаем выводы.

Размер словаря, на мой взгляд, 7-8К будет достаточно. На выходе будем иметь нечто похожее на браузерный accept: (fr 0.7, en 0.5, ru 0.1).

Может и какой попроще способ есть, сильно не вникал.

CGVictor:
fafl
Можно попробовать вместо словарей взять шингловую нарезку - конечный вычислительный объем уменьшится. Но тогда надо еще будет смотреть пересечение шингловых словарей между собой - например, у романских они будут совпадать на 30-40%, равно как и у кириллических и т.п.

Навигация

[0] Главная страница сообщений

[*] Предыдущая страница

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

Перейти к полной версии