Автор Тема: HTML parse (Прочитано 4157 раз)

AnnA · « : 28 Сентября 2004, 13:32:47 »

извинте, что я к вам обращаюсь... :)
привет!
Что-то никак у меня не получается из html-файла достать нужное... :( Помогите, подскажите, пожалуйста.
Есть такой файл:

Код: [Выделить]


мета тэги
несколько абзацев (хотя их может и не быть)
Бабушка, расскажи сказку!
В некотором царстве, некотором государстве была огромная гора.
И посреди той горы зияла огромная нора. А в норе той была большая хрустальная комната
 с большой хрустальной кроватью посередине.
 И спала на той кровати заколдованным сном прекрасная принцесса.
 И, чтобы расколдовать ее, должен был придти прекрасный принц и поцеловать ее...
 Бабушка умолкает.
 - Ба, ну и как, расколдовали ее?
 - Какой там, внученька! Они хоть и прынцы но все равно - козлы!
 Прожила до семидесяти, шестерых родила - да так и не проснулась!..

еще несколько или один

Мне нужно достать все от Б и до

.
делаю так:
читаю файл в массив @indata,
for (@indata) { $content = ($_=~ /(<span class="abz">.*<\\/p>)/); }
print \'
$content = \',$content;
получаю:
$content =

AnnA

блин. а что - нельзя своё сообщение отредактировать теперь? Вон оно какое длиннющее получилось.

и почему-то съелся экран для слэща в регекспе.

$content = ($_=~ /(.*<\\/p>)/);

Green Kakadu

AnnA поставь ключ s

Код: [Выделить]


$content = ($_=~ /(.*<\\/p> )/s);

тогда под символом \'.\' точка будет подразумеваься ЛЮБОЙ СИМВОЛ ВКЛЮЧАЯ СИМВОЛЫ НОВОЙ СТРОКИ

AnnA

Green Kakadu не-а. пасиба за совет.
я пробовала и так, и так:
$content = ($_=~ /(.*<\\/p> )/s);
$content = ($_=~ /(.*<\\/p> )/sg);
не хочет. "каменный цветок"

Green Kakadu

AnnA хочет:

Код: [Выделить]


/()/s

твоя ошибка:

Код: [Выделить]


 /(.*<\\/p>ПРОБЕЛ )/

Пробела там нет

вот и не хотел.

P.S. чего-то форум показал так, будто и у меня пробел есть между <\\/p>и)

а его там быть не должно

Green Kakadu

ключ g как я понимаю тебе не нужен - у тебя лишь одно включение данного блока будет?

AnnA

Green Kakadu вот вашими бы устами да мёд пить.

$content = ($_=~/()/s);
не работает.

а пробела, да - его и не было в моём примере тоже. чего-то форум меня так подредактировал.

Цитировать

Green Kakadu:
у тебя лишь одно включение данного блока будет?

ага. совершенно одно.

спасибо за помощь. Я уже даже начала разбираться в HTML::Parser ради такого случая. охо-хо... Странно что не работает, правда? Или у вас всё получилось, пробовали?

AnnA

в общем вот так получилось у меня вытянуть этот текст зловредный:use HTML::TokeParser;
  my $pt = HTML::TokeParser->new($p);
  while (my $token = $pt->get_tag("span")) {
       $content = $pt->get_trimmed_text("/p");

  }
здесь $p - путь к файлу. таких файлов у меня около 2 тыс и всякий раз файл выбираю через rand.
может есть более лёгкий способ выудить этот текст?

Green Kakadu

Цитировать

Или у вас всё получилось, пробовали?

пробовал, у меня работает.
кодЖ
---------------------------------------------------------------------

Код: [Выделить]


#!/usr/bin/perl
my $text=qq~
мета тэги
несколько абзацев (хотя их может и не быть)
Бабушка, расскажи сказку!
В некотором царстве, некотором государстве была огромная гора.
И посреди той горы зияла огромная нора. А в норе той была большая хрустальная комната
 с большой хрустальной кроватью посередине.
 И спала на той кровати заколдованным сном прекрасная принцесса.
 И, чтобы расколдовать ее, должен был придти прекрасный принц и поцеловать ее...
 Бабушка умолкает.
 - Ба, ну и как, расколдовали ее?
 - Какой там, внученька! Они хоть и прынцы но все равно - козлы!
 Прожила до семидесяти, шестерых родила - да так и не проснулась!..

еще несколько или один 

~;
$text=~/()/s?print $1 : print \'нету ничего\';

AnnA

у меня-тотекст в массиве. ну да сама виновата, наверное. не совсем точно задачу описала. а у меня это не работает. Вернее ваш пример - работает, а вот регексп для массива - увы.

только кодом, который я привела выше и получается достать нужный текст. сама удивляюсь.

Пасиба вам ещё раз запомощь.

Green Kakadu

Цитировать

у меня-тотекст в массиве.

ээ.. построчно што ли? Тогда :) тогда о каких регекспах может идти речь, если проверяют лишь строку?
есть 2 варианта:
1 считывать все-таки в одну переменную
2 вот так:
----------------------------------------------------

Код: [Выделить]


join("\\n",@text)=~/()/s?print $1:print \'нет такого\';

3 если вы поподробнее опишете как это все выглядит (может в массиве много страниц?) то можно еще подумать.

Новости:

Автор Тема: HTML parse (Прочитано 4157 раз)