Forum Webscript.Ru

Общие => Веб-технологии => Тема начата: Xlex от 29 Февраля 2004, 17:10:46

Название: HTML parsing
Отправлено: Xlex от 29 Февраля 2004, 17:10:46: € снова здравствуйте. ‘кажите, пожалуйста, есть ли какие методы длџ парсинга HTML страниц? €нтересует не только и не столько преобразование HTML в дерево вида: [] => [] => [ = \'Some title\'] и т.д. сколько парсинг длџ получениџ содержимого страницы. ’о есть, например, џ хочу получать курс валют с rbc.ru, или грабить заголовки свежих постингов с какого-то сайта (который не предоставлџет никакого RSS). …сть ли такие решениџ? …сли да, то ткните, пожалуйста, носом в доки (алгоритм) и/или подобные программы/скрипты (предпочтительно на C или PHP, но не принципиально). ‡аранее благодарен. </dd> <dt class="postheader"> Название: HTML parsing Отправлено: AliMamed от 29 Февраля 2004, 18:03:28 </dt> <dd class="postbody"> по поводу парсинга: [p]xml[/p], [p]domxml[/p] по поводу грабинга [p]strings[/p] </dd> <dt class="postheader"> Название: HTML parsing Отправлено: Xlex от 29 Февраля 2004, 18:08:00 </dt> <dd class="postbody"> <div class="quoteheader"><div class="topslice_quote">Цитировать</div></div><blockquote class="bbc_standard_quote">AliMamed: undefined</blockquote><div class="quotefooter"><div class="botslice_quote"></div></div> то что надо использовать эти функции итак понЯтно... ЊенЯ больше алгоритм/решение интересует... </dd> <dt class="postheader"> Название: HTML parsing Отправлено: Yukko от 29 Февраля 2004, 23:57:38 </dt> <dd class="postbody"> поиск по форуму по слову парсинг (http://forums.webscript.ru/search.php?s=&action=showresults&searchid=158329&sortby=lastpost&sortorder=descending) там столько материала в топиках, что тебе на месяц чтива хватит... </dd> <dt class="postheader"> Название: HTML parsing Отправлено: Xlex от 01 Марта 2004, 00:36:24 </dt> <dd class="postbody"> Yukko: Я быстрый, хватило 30 минут =) не совсем то, что нужно - интересует общий алгоритм не длЯ одного сайта, хотЯ одна тема была там весьма близка (обработка прайс-листа), но всЮ не совсем... </dd> <dt class="postheader"> Название: HTML parsing Отправлено: Xlex от 01 Марта 2004, 00:38:16 </dt> <dd class="postbody"> слушайте, а почему буква "Я" и "ю" написаннаЯ маленькими буквами приводЯтсЯ к верхнему регистру? </dd> <dt class="postheader"> Название: HTML parsing Отправлено: Макс от 01 Марта 2004, 02:18:29 </dt> <dd class="postbody"> Xlex как такового алгоритма здесь нет. Каждый сайт уникален. Просто изучаешь ХТМЛ, определяешь, какая инфа тебе нужна, определяешь правила по которым ее можна вытянтуть и пишешь регекспы </dd> </dl> <div id="footer" class="smalltext"> <a href="http://forums.webscript.ru/index.php?PHPSESSID=45ljr4t25q5q8veplturjum8e0&action=credits" title="Simple Machines Forum" target="_blank" class="new_win">SMF 2.0.19</a> | <a href="http://www.simplemachines.org/about/smf/license.php" title="License" target="_blank" class="new_win">SMF © 2016</a>, <a href="http://www.simplemachines.org" title="Simple Machines" target="_blank" class="new_win">Simple Machines</a> </div> </body> </html>