Forum Webscript.Ru
Общие => Веб-технологии => Тема начата: Xlex от 29 Февраля 2004, 17:10:46
-
€ снова здравствуйте. ‘кажите, пожалуйста, есть ли какие методы длџ парсинга HTML страниц? €нтересует не только и не столько преобразование HTML в дерево вида: [] => [] => [ = \'Some title\'] и т.д. сколько парсинг длџ получениџ содержимого страницы. ’о есть, например, џ хочу получать курс валют с rbc.ru, или грабить заголовки свежих постингов с какого-то сайта (который не предоставлџет никакого RSS). …сть ли такие решениџ? …сли да, то ткните, пожалуйста, носом в доки (алгоритм) и/или подобные программы/скрипты (предпочтительно на C или PHP, но не принципиально).
‡аранее благодарен.
-
по поводу парсинга:
[p]xml[/p], [p]domxml[/p]
по поводу грабинга [p]strings[/p]
-
AliMamed:
undefined
то что надо использовать эти функции итак понЯтно... ЊенЯ больше алгоритм/решение интересует...
-
поиск по форуму по слову парсинг (http://forums.webscript.ru/search.php?s=&action=showresults&searchid=158329&sortby=lastpost&sortorder=descending) там столько материала в топиках, что тебе на месяц чтива хватит...
-
Yukko: Я быстрый, хватило 30 минут =)
не совсем то, что нужно - интересует общий алгоритм не длЯ одного сайта, хотЯ одна тема была там весьма близка (обработка прайс-листа), но всЮ не совсем...
-
слушайте, а почему буква "Я" и "ю" написаннаЯ маленькими буквами приводЯтсЯ к верхнему регистру?
-
Xlex
как такового алгоритма здесь нет. Каждый сайт уникален. Просто изучаешь ХТМЛ, определяешь, какая инфа тебе нужна, определяешь правила по которым ее можна вытянтуть и пишешь регекспы