Автор Тема: Perl, чтение Excel, символы с диакритиками.  (Прочитано 2272 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Muzer

  • Заглянувший
  • Новичок
  • *
  • Сообщений: 1
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
Есть excel файл, в нём текст на 5ти языках (русский, английский, польский, чешский, словакский).
Для справки: языки кроме русского и английского содержат символы с диакритиками (всякие чёрточки над/под буквами), поэтому в основном работа ведётся в UTF-8.

Задача: через perl-скрипт получить данные из excel, вывести на вёб страницу в utf-8.

Использую Spreadsheet::ParseExcel. Чётко по мануалу.
Достигнутые результаты:
1) если использовать Spreadsheet::ParseExcel::FmtUnicode и в качестве карты использовать cp1251, затем по средствам Text::Iconv конвертировать значения полей в UTF8, то получаем русский текст (остальной ессно без диакритик).
2) если не использовать Spreadsheet::ParseExcel::FmtUnicode, брать полученные значения полей и далее $value = Encode::encode(\'utf8\', $value); , то а) русский текст представляет что-то типа такого "5@A>=0;L=K9 8G=>9 @C??K" б) текст на остальных языках отображается на 80% корректно, т.е. некот. символы с диакритиками отображаются верно, некоторые заменяются квадратиками.

Вопрос: как же всё-таки прочитать все символы корректно (пусть даже за неск.проходов)? Или хотя бы в какой кодировке возвращаются значения из excel по умолчанию?
Перебрал дофига вариантов, пробовал конвертить с помощью Text::Iconv из большинства известных кодировок, результатов - никаких.
Пробовал подобрать для Spreadsheet::ParseExcel::FmtUnicode карту, которая бы сохраняла диакритики, а потом из неё конвертить в utf, но таких тоже не нашёл.
Благодарю за внимание.

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28