Автор Тема: из win1251 в utf-8 (Прочитано 15655 раз)

GrAfF · « : 09 Апреля 2004, 13:33:20 »

Подскажите плиз, если кто знает.
Нужна пара строчек, которые сконвертят переменную из win1251 в utf-8.

NeoNox · « **Ответ #1 :** 09 Апреля 2004, 13:41:55 »

perldoc Convert::Cyrillic

GrAfF · « **Ответ #2 :** 09 Апреля 2004, 14:14:33 »

use Encode;
$infile = "11.txt";
$outfile = "22.txt";
# via from_to
open my $in, "<", $infile or die;
open my $out, ">", $outfile or die;
while(<$in>){
from_to($_, "cp1251", "utf8", 1);
print $out $_;
}

NeoNox, cодрал код из Encode.html. Но даже не создаётся outfile. Помоги плиз именно парой строчек кода, если не трудно.
Мне нужно много файлов переконвертить, вчера утилы долго искал, ничего не нашел. Некоторые файлы даже Штирлиц не открывает. Пришлось писать скрипт, именно на этом моменте застрял.

Chs · « **Ответ #3 :** 09 Апреля 2004, 16:11:11 »

man recode?

а если код править, то так:
use Encode;
$infile = "11.txt";
$outfile = "22.txt";
# via from_to
open(IN, "<", $infile) or die $!;
open(OUT, ">", $outfile) or die $!;
while( ){
from_to($_, "cp1251", "utf8", 1);
print OUT $_;
}

NeoNox · « **Ответ #4 :** 09 Апреля 2004, 16:36:31 »

Я не очень хорошо понимаю что значит содрал?
И почему не Convert::Cyrillic?

flymio · « **Ответ #5 :** 09 Апреля 2004, 18:32:42 »

http://mio.itsoft.ru/pub/win2utf8/convert.pm.txt
save target as.
не помню откуда.

GrAfF · « **Ответ #6 :** 12 Апреля 2004, 01:51:29 »

Chs, man recode у меня нет, ибо ВыньХП. А код правь или нет даже не создаёт 22.txt.

NeoNox, ноу док по Convert::Cyrillic. Нашел в HTML формате - доках по Perl. Но там тёмный лес какой-то. Содрал - взял кусок чужого кода.

flymio, спасибо.

Что нужнос делать с символом, чтобы его потом выловить через регэксп с штукой вроде [\\x98] ?

GrAfF · « **Ответ #7 :** 13 Апреля 2004, 15:09:00 »

И всё, никто ничем не поможет?

Я сейчас близок к одной мысли. Грубо и напролом. Читать исходный файл по байту, проверять восьмой бит и в соответствии с таблицей перекодировки писать по одному-двум байтам в utf-8.

И всё-таки, может кто-нибудь практически знает как вызывать в perl штуки для работы с unicode?

ThE0ReTiC · « **Ответ #8 :** 13 Апреля 2004, 15:12:23 »

GrAfF
http://www.freebsd.org/cgi/man.cgi?query=recode&apropos=0&sektion=1&manpath=FreeBSD+5.2-RELEASE+and+Ports&format=html

GrAfF · « **Ответ #9 :** 13 Апреля 2004, 15:44:46 »

Будете долго смеяться, говорить: "Я так и знал" и покачивать головой. В общем, perl запускался из папки с урезанный дистрибутивом. Сейчас всё с Encode заработало.
Хотя путь с восьмым битом кажется интереснее.

GrAfF · « **Ответ #10 :** 14 Апреля 2004, 03:14:49 »

Пока получилась такая гадость:

Код: [Выделить]


use Encode qw/encode decode/;
open (DATA, "$_") or die "$!";
open(OUT, ">done\\\\$_") or die $!;
binmode OUT, utf8;
print OUT ($hdr);
while () {
chomp;
$tmp  = decode("cp1251", $_);
print OUT ($tmp . "\\n");
}
close DATA;
close OUT;

Весь день сегодня переписывал этот скрипт с использованием разных способов. Ничего хорошего не получается.

Вопрос в тему: как из символа получить его код в двоичном или hex формате? Пробовал играть с pack - какая-то ерунда выходит.

NeoNox · « **Ответ #11 :** 14 Апреля 2004, 12:10:28 »

GrAfF
что бы гадости не получалось пишем под use strict.
далее... binmode OUT, utf8; что это?!

Цитировать

GrAfF:
NeoNox, ноу док по Convert::Cyrillic.

А это что такое?
http://search.cpan.org/~jneystadt/cyrillic-1.05/Convert/Cyrillic.pm

ondr · « **Ответ #12 :** 14 Апреля 2004, 14:32:59 »

GrAfF
Дело в том что изначально у вас был относительно верный вариант. И не работал он скорее всего из-за этого "Но даже не создаётся outfile". Что никак с перекодировкой не связанно.

Для того, чтобы заработал второй вариант вот рекомендации:
1. Ну самое важное замечание в обоих вариантах - не включены сообщения об ошибках;
2. Справьте "binmode(OUT, utf8)"; на "binmode(OUT, \':utf8\');"
3. Убедитесь что версия perl 5.8.0 или лучше 5.8.1 или выше. Если ниже, то из здесь описанных, вам пойдет только вариант NeoNox\'а.
4. Мелочь: вам не кажется бессмысленным рубить "\\n" и тут же его добавлять?

ps: для данной задачи первый вариант предпочтительнее. Разберитесь с проблемой открытия файлов.

и вообще
perldoc strict
perldoc warnings
perldoc perlunitut
perldoc perlunicode
perldoc utf8
perldoc Encode
perldoc -f binmode
порядок соблюдать

GrAfF · « **Ответ #13 :** 14 Апреля 2004, 17:04:04 »

Вскрываем карты. Триллиан (клон ICQ) хранил логи сообщений в cp1251, с новой версии он же пишет в те же логи utf8.
Возникла необходимость переконвертить. Ни одна найденная утила файлы пачкой перекодировать не хотела, а руками не хотелось мне.
Я некоторое время апологетил BeOS, там понял что такое utf8 и чем он отличается от однобайтных кодировок.
Думал, перекод на Перле уместится в пару-тройку строк. Даже заранее нарыл perl2exe чтобы раздать перекодировщик знакомым, которые из-за несовместимости базы не спешат переходить.

Хотелось сделать всё самому, найти в логах восьмибайтные символы и переписать их двумя байтами utf8. Плюс добавить трёхбайтный header к txt файлу, чтобы он опозновался как utf8 (как это работает так и не понял).

Трабла в том, что уже поздно перекодировать строчками, логи у меня уже разбавлены utf8 и лучше было бы побайтно заменить все cp1251.

Поэтому вопрос формулируется так: как узнать двоичный или hex код символа. С pack ничего у меня не получилось. Доки читал, но реультат совершенно не тот, что мне кажется был должен получится.

NeoNox, binmode OUT, utf8 как-то хитро пишет в файл с нужными crlf. Я ночью читал, не выспался, забыл уже что это такое.

ondr, он 5.8.0. Рубить "\\n" приходится для подстаховки, ведь chomp удаляет все переносы строки, неважно, unix или win. "И вообще" я вчера как раз и читал. Похоже, бесполезно.

NeoNox · « **Ответ #14 :** 14 Апреля 2004, 18:04:15 »

Цитировать

GrAfF:
ночью читал, не выспался, забыл уже что это такое.

Перечитай, в чем вопрос?

Новости:

Автор Тема: из win1251 в utf-8 (Прочитано 15655 раз)