Forum Webscript.Ru

Программирование => Регулярные выражения => Тема начата: SergIvanov от 29 Декабря 2004, 18:39:18

Название: 8-битные символы в RE
Отправлено: SergIvanov от 29 Декабря 2004, 18:39:18
Привет!

Кто объяснит, почему этот скрипт пишет 4 раза found в ActiveState Perl и 4 раза not found на Юниксе (perl5.6)? Кодировка Windows, выставление локали не помогает. Хотя здесь по идее и не должно быть зависимости от локали. Я вставил use bytes, как советовали мастера от перла, чтобы символы понимались как однобайтовые, но это не помогло. Что надо, чтобы символы в re понимались как однобайтовые? Мастера перла здесь пасуют. Larry Wall, конечно, отвечать мне не станет.
Как видите, замена русской с на \\xF1 не помогает. Если разделить ? и с пробелом, то уже находит:
/^Результат поиска.+? сайтов/m
Вот еще работающий вариант разделителя:
/^Результат поиска.+?\\s{0}сайтов/

Сергей

#!/usr/bin/perl -w
use strict;
use bytes;

print "Content-Type: text/html\\n\\n";
print "\\n";

$_=\'Результат поиска: найдено сайтов\';
if (/^Результат поиска.+?сайтов/m)
{ print "1. Found
\\n";
} else
{ print "1. Not found
\\n";
}

if (/^Результат поиска.+?\\xF1айтов/m)
{ print "2. Found
\\n";
} else
{ print "2. Not found
\\n";
}

if (/^Результат поиска.+?сайтов/m)
{ print "1. Found
\\n";
} else
{ print "1. Not found
\\n";
}

if (/^Результат поиска.+?\\xF1айтов/m)
{ print "2. Found\\n";
} else
{ print "2. Not found\\n";
}
print \'\';
Название: 8-битные символы в RE
Отправлено: ondr от 30 Декабря 2004, 09:25:50
Увы, похоже на баг. На perl5.6.1 и более ранних версиях не находит ни на win ни на *nix платформе. Но на версиях 5.8.x отрабатывает успешно, поэтому писать в support скорее всего уже бесполезно.

ps: про use bytes тебе зря советовали. Убери, если твой скрипт не связан с юникодами
Название: 8-битные символы в RE
Отправлено: Yukko от 30 Декабря 2004, 11:20:05
SergIvanov
просьба не забивать своими постами чужие темы, которые не касаются твоей проблемы.