Forum Webscript.Ru

Программирование => Perl => Тема начата: perl81 от 24 Апреля 2006, 17:46:10

Название: парсинг html
Отправлено: perl81 от 24 Апреля 2006, 17:46:10
Привет.

задача:
Есть html файл, нужно вытащить все названия ссылок.

для примера есть :
 лучшая девушка в СССР

надо получить : лучшая девушка в СССР

В сторону какого модуля копать? думаю что то вроде HTTP::Parser или HTML::LinkExtor?? или неправ?
Название: парсинг html
Отправлено: xames от 25 Апреля 2006, 09:33:45
@all_name_links = $content =~ m%(.+?)%ig;
Название: парсинг html
Отправлено: AnnA от 25 Апреля 2006, 13:25:10
 use HTML::TokeParser;
my $p = HTML::TokeParser->new("index.html");
if ($p->get_tag("title")){
   my $title = $p->get_trimmed_text; # Содержимое <br />}<br />while (my $token = $p->get_tag("a")) {  # перибираем все <a href><br />   my $url = $token->[1]{href} || "";<br />   my $text = $p->get_trimmed_text("/a"); # Текст между <a ...> и </a><br />}</code> </dd> </dl> <div id="footer" class="smalltext"> <span class="smalltext" style="display: inline; visibility: visible; font-family: Verdana, Arial, sans-serif;"><a href="http://forums.webscript.ru/index.php?action=credits" title="Simple Machines Forum" target="_blank" class="new_win">SMF 2.0.19</a> | <a href="http://www.simplemachines.org/about/smf/license.php" title="License" target="_blank" class="new_win">SMF © 2016</a>, <a href="http://www.simplemachines.org" title="Simple Machines" target="_blank" class="new_win">Simple Machines</a> </span> </div> </body> </html>