Автор Тема: Чем лучше всего парсить html файл?  (Прочитано 5202 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн UltraMax

  • Завсегдатай
  • Пользователь
  • **
  • Сообщений: 98
  • +0/-0
  • 0
    • Просмотр профиля
    • http://www.dinamo-minsk.org
Есть в инете страница срезультатами поиска в виде html файла. Необходимо получить его, и обработать рещультаты.
Каким образом это лучше всего и правильнее сделать?

Оффлайн CGVictor

  • теперь местный
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 2511
  • +0/-0
  • 2
    • Просмотр профиля
    • http://cg.net.ru
Чем лучше всего парсить html файл?
« Ответ #1 : 06 Июля 2006, 14:16:03 »
UltraMax

[p]preg_match[/p]
LJ: Backslashed life (rss)

Оффлайн UltraMax

  • Завсегдатай
  • Пользователь
  • **
  • Сообщений: 98
  • +0/-0
  • 0
    • Просмотр профиля
    • http://www.dinamo-minsk.org
Чем лучше всего парсить html файл?
« Ответ #2 : 06 Июля 2006, 14:20:31 »
CGVictor
ну спасибо - подсказал. То что мне с регэкспами придется работать с полученным результатом это я и сам понял.
Неужели нет ничего специфического типа как xml parser функции? :(

Оффлайн CGVictor

  • теперь местный
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 2511
  • +0/-0
  • 2
    • Просмотр профиля
    • http://cg.net.ru
Чем лучше всего парсить html файл?
« Ответ #3 : 06 Июля 2006, 16:10:13 »
UltraMax
А у тебя тот бардак в HTML, который надо парсить - что, соответсвует "специфическому типу"?
Всё индивидуально. Смотришь, что тебе понадобится из текста страницы, вырезаешь..
LJ: Backslashed life (rss)

Оффлайн UltraMax

  • Завсегдатай
  • Пользователь
  • **
  • Сообщений: 98
  • +0/-0
  • 0
    • Просмотр профиля
    • http://www.dinamo-minsk.org
Чем лучше всего парсить html файл?
« Ответ #4 : 06 Июля 2006, 16:21:19 »
Я имел ввиду что-то типа этого
http://search.cpan.org/~msisk/HTML-TableExtract-2.09/lib/HTML/TableExtract.pm

Все ясно, придется делать на перле

Оффлайн CGVictor

  • теперь местный
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 2511
  • +0/-0
  • 2
    • Просмотр профиля
    • http://cg.net.ru
Чем лучше всего парсить html файл?
« Ответ #5 : 06 Июля 2006, 16:29:41 »
UltraMax
А чем плох PHP?
LJ: Backslashed life (rss)

Оффлайн UltraMax

  • Завсегдатай
  • Пользователь
  • **
  • Сообщений: 98
  • +0/-0
  • 0
    • Просмотр профиля
    • http://www.dinamo-minsk.org
Чем лучше всего парсить html файл?
« Ответ #6 : 06 Июля 2006, 16:45:58 »
CGVictor
такой модуль есть для php?

у меня есть таблица в html
мне надо ее распарссить, а не регэкспами биться головой об стенку

Оффлайн CGVictor

  • теперь местный
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 2511
  • +0/-0
  • 2
    • Просмотр профиля
    • http://cg.net.ru
Чем лучше всего парсить html файл?
« Ответ #7 : 06 Июля 2006, 17:36:33 »
UltraMax
Эх.. вот молодежь пошла, в красивой задаче вызова не видят!..

Вот пример, навскидку.
[off]$text = "
El1El2El3
Elq1Elq3

someshit

dl1dl2dl3
dq1dq3
";

$tables = array();
preg_match_all("#]*)>(((?!]*)>).)*)#si",$text,$out);
for($i=0;$i  $tables[$i] = array();
  preg_match_all("#]*)>(((?!]*)>).)*)#si",$out[1][$i],$out2);
  for($j=0;$j    $tables[$i][$j] = array();
    preg_match_all("#]*)>(((?!]*)>).)*)#si",$out2[1][$j],$out3);
    for($k=0;$k      $tables[$i][$j][$k] = $out3[1][$k];
    }
  }
}
echo(htmlspecialchars(print_r($tables,true)));[/off]

10 минут работы по моим часам.

Доработать проверками на количество элементов, еще чего по вкусу добавить - и подойдет на ура.
LJ: Backslashed life (rss)

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28