Автор Тема: Разбор HTML текста (Прочитано 5520 раз)

kiruxa · « : 21 Апреля 2008, 16:42:35 »

Здравствуйте у меня есть входящий ХТМЛ текст (присылаються данные),
идет по шаблону впринципе все одинаковое

типа

мне надо вырезать все что в указано теге,
притом обрезать по закрывающемуся тегу....

подскажите куда смотреть и как правильно обрезать тег чтобы он отрезался по откр и закр тегу

спасибо,
непиннайте маленьких

ravshaniy · « **Ответ #1 :** 22 Апреля 2008, 11:27:53 »

1 вариант. вам могут помочь регулярные выражения как вариант

2 вариант - возможно что парсер типо xml. все таки стандарт дом, должен создать объекты.

3. ну и можно просто циклом. если вы читаете файл построчно. то построить условия в цикле так чтобы не считывать ненужные строки

4. вариант - красивый если использовать чтото типо grep. array_filter - кажется в php. осталось сделать так чтобы поток строк был массивом и как не странно

Код: [Выделить]

array file ( string filename [, int use_include_path [, resource context]])
то есть возвращает массив строк.

возможно еще есть варианты. думаю что второй вариант лучше отбросить как малоэффективный

kiruxa · « **Ответ #2 :** 22 Апреля 2008, 11:47:03 »

Спасибо начал делать через DomDocument

Не могу получить ХТМЛ содержимое тага
$tag_list = $responseDoc->getElementsByTagName(\'table\');
foreach ($tag_list as $tag) {
if ($tag->attributes->getNamedItem(\'class\')->value==\'content\')
foreach ($tag->childNodes as $item) {

$node_name = iconv("UTF-8", "windows-1251", $item->nodeName);
$node_value = iconv("UTF-8", "iso8859-1", $item->nodeValue);
}
}

Не подзкажите как получить ХТМЛ содержимое?

hanslinger · « **Ответ #3 :** 22 Апреля 2008, 12:30:59 »

[p]simplexml[/p]

linzman · « **Ответ #4 :** 13 Мая 2008, 16:04:18 »

а чем регекспы хуже?

Новости:

Автор Тема: Разбор HTML текста (Прочитано 5520 раз)