Автор Тема: определить язык страницы  (Прочитано 8925 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн fafl

  • Заглянувший
  • Новичок
  • *
  • Сообщений: 3
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
определить язык страницы
« : 01 Ноября 2009, 04:35:10 »
народ, возникла интересная задача. Допустим получили мы через lwp содержимое страницы по адресу. Как определить основной язык страницы? (ну допустим en, ru, de...)

Оффлайн arto

  • Ветеран
  • *****
  • Сообщений: 699
  • +0/-0
  • 2
    • Просмотр профиля
определить язык страницы
« Ответ #1 : 01 Ноября 2009, 14:28:21 »
попробовать перевести ?

Оффлайн fafl

  • Заглянувший
  • Новичок
  • *
  • Сообщений: 3
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
определить язык страницы
« Ответ #2 : 01 Ноября 2009, 14:31:48 »
на кой мне перевод? мне нужно определение языка сайта
или я идею недопонял?

Оффлайн arto

  • Ветеран
  • *****
  • Сообщений: 699
  • +0/-0
  • 2
    • Просмотр профиля
определить язык страницы
« Ответ #3 : 01 Ноября 2009, 15:49:15 »
а как вы отделите русский от белорусского, например ?

Оффлайн fafl

  • Заглянувший
  • Новичок
  • *
  • Сообщений: 3
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
определить язык страницы
« Ответ #4 : 01 Ноября 2009, 15:53:48 »
хорошо, конкретизируем и уточним задачу. надо отделять en от ru

Оффлайн arto

  • Ветеран
  • *****
  • Сообщений: 699
  • +0/-0
  • 2
    • Просмотр профиля
определить язык страницы
« Ответ #5 : 01 Ноября 2009, 17:01:17 »
в русских кодировках используются символы с кодом > 128 (не считая латиницы)

Оффлайн arto

  • Ветеран
  • *****
  • Сообщений: 699
  • +0/-0
  • 2
    • Просмотр профиля
определить язык страницы
« Ответ #6 : 01 Ноября 2009, 17:01:45 »
ну и отдельные разборки с utf8

Оффлайн CGVictor

  • теперь местный
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 2511
  • +0/-0
  • 2
    • Просмотр профиля
    • http://cg.net.ru
определить язык страницы
« Ответ #7 : 01 Ноября 2009, 18:47:18 »
fafl
В общем случае я бы решал задачу через базисные словари: смотрим степень соответствия тому или иному (процент пересечения с данным словарем статьи), на основании этого делаем выводы.

Размер словаря, на мой взгляд, 7-8К будет достаточно. На выходе будем иметь нечто похожее на браузерный accept: (fr 0.7, en 0.5, ru 0.1).

Может и какой попроще способ есть, сильно не вникал.
LJ: Backslashed life (rss)

Оффлайн CGVictor

  • теперь местный
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 2511
  • +0/-0
  • 2
    • Просмотр профиля
    • http://cg.net.ru
определить язык страницы
« Ответ #8 : 01 Ноября 2009, 19:03:42 »
fafl
Можно попробовать вместо словарей взять шингловую нарезку - конечный вычислительный объем уменьшится. Но тогда надо еще будет смотреть пересечение шингловых словарей между собой - например, у романских они будут совпадать на 30-40%, равно как и у кириллических и т.п.
LJ: Backslashed life (rss)

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28