Forum Webscript.Ru

Программирование => PHP => Тема начата: kiruxa от 21 Апреля 2008, 16:42:35

Название: Разбор HTML текста
Отправлено: kiruxa от 21 Апреля 2008, 16:42:35
Здравствуйте у меня есть входящий ХТМЛ текст (присылаються данные),
идет по шаблону впринципе все одинаковое

типа



    ....





мне надо вырезать все что в указано теге,
притом обрезать по закрывающемуся тегу....

подскажите куда смотреть и как правильно обрезать тег чтобы он отрезался по откр и закр тегу


спасибо,
непиннайте маленьких
Название: Разбор HTML текста
Отправлено: ravshaniy от 22 Апреля 2008, 11:27:53
1 вариант. вам могут помочь регулярные выражения как вариант

2 вариант - возможно что парсер типо xml. все таки стандарт дом, должен создать объекты.

3. ну и можно просто циклом. если вы читаете файл построчно. то построить условия в цикле так чтобы не считывать ненужные строки

4. вариант - красивый если использовать чтото типо grep. array_filter - кажется в php. осталось сделать так чтобы поток строк был массивом и как не странно
array file ( string filename [, int use_include_path [, resource context]])
то есть возвращает массив строк.

возможно еще есть варианты. думаю что второй вариант лучше отбросить как малоэффективный
Название: Разбор HTML текста
Отправлено: kiruxa от 22 Апреля 2008, 11:47:03
Спасибо начал делать через DomDocument

Не могу получить ХТМЛ содержимое тага
$tag_list = $responseDoc->getElementsByTagName(\'table\');
foreach ($tag_list as $tag) {
if ($tag->attributes->getNamedItem(\'class\')->value==\'content\')
    foreach ($tag->childNodes as $item) {
     
$node_name = iconv("UTF-8", "windows-1251", $item->nodeName);
$node_value = iconv("UTF-8", "iso8859-1", $item->nodeValue);
}
}

Не подзкажите как получить ХТМЛ содержимое?
Название: Разбор HTML текста
Отправлено: hanslinger от 22 Апреля 2008, 12:30:59
[p]simplexml[/p]
Название: Разбор HTML текста
Отправлено: linzman от 13 Мая 2008, 16:04:18
а чем регекспы хуже?