Автор Тема: Parsing HTML-файла  (Прочитано 2221 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Bazzilic

  • Заглянувший
  • Новичок
  • *
  • Сообщений: 1
  • +0/-0
  • 0
    • Просмотр профиля
    • http://bazzilic.livejournal.com
Parsing HTML-файла
« : 06 Июля 2007, 12:09:14 »
Задача стоит следующая: есть большое количество однотипных html-страниц, содержащих информацию типа той, что хранится на афише.ру, т.е. всякие музеи, выставки, театры, достопримечательности и т.д. Надо извлекать оттуда инфу, т.е. очистить от html-кода и определить, что есть что.

Ну и в связи с этим вопросы:

  • Не сталкивался ли кто-нибудь с такой задачей, и если сталкивался, то как решал?
  • Какой есть модуль для качественного разбора html-файлов? Я использовал HTML::Parser, но он зачем-то использует многопоточность, что вызывает больше проблем, чем решает.

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28