Forum Webscript.Ru

Программирование => Perl => Тема начата: Knopka от 18 Апреля 2005, 12:16:30

Название: regexp
Отправлено: Knopka от 18 Апреля 2005, 12:16:30
imeetsa text vida


...some text...



vnutri toshe imeutsa spans i tablesi tags v neogranichennom kol-ve, nushno vitashit tolko text



takix kyskov neogr kol-vo

primer texta:
Цитировать

...



some text
no need this text

some text
text we needtext




any tags
...



some text
no need this text

some text
text we needtext




any tags


nushno vibrat tolko videlenniy text
Название: regexp
Отправлено: Knopka от 18 Апреля 2005, 12:20:32
проблема заключается в том, чтобы дать программе понять, что между .. могут быть тоже ... то есть когда открывается, то нужно следить за тем, что внутренние открытые должны быть закрытыми и соответственно последний закрытый это  конец куска ...
Название: regexp
Отправлено: Knopka от 18 Апреля 2005, 12:24:51
while($text=~m%((вот эта часть, где нужно обозначить любой текст, в том числе вложенные span`s вызывает затруднение)*?)%ig)
{
 $t=$1;
}
Название: regexp
Отправлено: Knopka от 18 Апреля 2005, 12:32:00
while($text=~m%(([\\w\\W](%ig)

при этой конструкции дает после нескольких удачных прокруток "Segmentation fault"
Название: regexp
Отправлено: vladsu от 18 Апреля 2005, 14:37:06
Может Вам стоит взглянуть на
HTML:: Parser (http://search.cpan.org/~gaas/HTML-Parser-3.45/Parser.pm)
Название: regexp
Отправлено: AnnA от 18 Апреля 2005, 14:39:25
Knopka
HTML::Parser замечательно справляется с такими задачами.
или HTML::TokeParser
Название: regexp
Отправлено: AnnA от 18 Апреля 2005, 14:40:42
о. :) на 2 секунды опоздала.
Название: regexp
Отправлено: Lastiik от 18 Апреля 2005, 18:01:29
да, уже ок, не могу только внутренние таблицы удалять...

то есть, если


some info


delete this info


info