Forum Webscript.Ru

Общие => Веб-технологии => Тема начата: Xlex от 29 Февраля 2004, 17:10:46

Название: HTML parsing
Отправлено: Xlex от 29 Февраля 2004, 17:10:46
€ снова здравствуйте.  ‘кажите, пожалуйста, есть ли какие методы длџ парсинга HTML страниц?  €нтересует не только и не столько преобразование HTML в дерево вида:  [] => [] => [ = \'Some title\'] и т.д.  сколько парсинг длџ получениџ содержимого страницы. ’о есть, например, џ хочу получать курс валют с rbc.ru, или грабить заголовки свежих постингов с какого-то сайта (который не предоставлџет никакого RSS).  …сть ли такие решениџ? …сли да, то ткните, пожалуйста, носом в доки (алгоритм) и/или подобные программы/скрипты (предпочтительно на C или PHP, но не принципиально).  <br /><br />‡аранее благодарен. </dd> <dt class="postheader"> Название: <strong>HTML parsing</strong><br /> Отправлено: <strong>AliMamed</strong> от <strong>29 Февраля 2004, 18:03:28</strong> </dt> <dd class="postbody"> по поводу парсинга:<br />[p]xml[/p], [p]domxml[/p]<br /><br />по поводу грабинга [p]strings[/p] </dd> <dt class="postheader"> Название: <strong>HTML parsing</strong><br /> Отправлено: <strong>Xlex</strong> от <strong>29 Февраля 2004, 18:08:00</strong> </dt> <dd class="postbody"> <div class="quoteheader"><div class="topslice_quote">Цитировать</div></div><blockquote class="bbc_standard_quote"><strong>AliMamed</strong>:<br />undefined</blockquote><div class="quotefooter"><div class="botslice_quote"></div></div> то что надо использовать эти функции итак понЯтно... ЊенЯ больше алгоритм/решение интересует... </dd> <dt class="postheader"> Название: <strong>HTML parsing</strong><br /> Отправлено: <strong>Yukko</strong> от <strong>29 Февраля 2004, 23:57:38</strong> </dt> <dd class="postbody"> поиск по форуму по слову парсинг (http://forums.webscript.ru/search.php?s=&action=showresults&searchid=158329&sortby=lastpost&sortorder=descending) там столько материала в топиках, что тебе на месяц чтива хватит... </dd> <dt class="postheader"> Название: <strong>HTML parsing</strong><br /> Отправлено: <strong>Xlex</strong> от <strong>01 Марта 2004, 00:36:24</strong> </dt> <dd class="postbody"> <strong>Yukko</strong>: Я быстрый, хватило 30 минут =)<br />не совсем то, что нужно - интересует общий алгоритм не длЯ одного сайта, хотЯ одна тема была там весьма близка (обработка прайс-листа), но всЮ не совсем... </dd> <dt class="postheader"> Название: <strong>HTML parsing</strong><br /> Отправлено: <strong>Xlex</strong> от <strong>01 Марта 2004, 00:38:16</strong> </dt> <dd class="postbody"> слушайте, а почему буква "Я" и "ю" написаннаЯ маленькими буквами приводЯтсЯ к верхнему регистру? </dd> <dt class="postheader"> Название: <strong>HTML parsing</strong><br /> Отправлено: <strong>Макс</strong> от <strong>01 Марта 2004, 02:18:29</strong> </dt> <dd class="postbody"> <strong>Xlex</strong> <br />как такового алгоритма здесь нет. Каждый сайт уникален. Просто изучаешь ХТМЛ, определяешь, какая инфа тебе нужна, определяешь правила по которым ее можна вытянтуть и пишешь регекспы </dd> </dl> <div id="footer" class="smalltext"> <span class="smalltext" style="display: inline; visibility: visible; font-family: Verdana, Arial, sans-serif;"><a href="http://forums.webscript.ru/index.php?PHPSESSID=45ljr4t25q5q8veplturjum8e0&action=credits" title="Simple Machines Forum" target="_blank" class="new_win">SMF 2.0.19</a> | <a href="http://www.simplemachines.org/about/smf/license.php" title="License" target="_blank" class="new_win">SMF © 2016</a>, <a href="http://www.simplemachines.org" title="Simple Machines" target="_blank" class="new_win">Simple Machines</a> </span> </div> </body> </html>