Îáùèå > Âåá-òåõíîëîãèè
HTML parsing
Xlex:
ˆ ñíîâà çäðàâñòâóéòå. ‘êàæèòå, ïîæàëóéñòà, åñòü ëè êàêèå ìåòîäû äëŸ ïàðñèíãà HTML ñòðàíèö? ˆíòåðåñóåò íå òîëüêî è íå ñòîëüêî ïðåîáðàçîâàíèå HTML â äåðåâî âèäà: [] => [] => [ = \'Some title\'] è ò.ä. ñêîëüêî ïàðñèíã äëŸ ïîëó÷åíèŸ ñîäåðæèìîãî ñòðàíèöû. ’î åñòü, íàïðèìåð, Ÿ õî÷ó ïîëó÷àòü êóðñ âàëþò ñ rbc.ru, èëè ãðàáèòü çàãîëîâêè ñâåæèõ ïîñòèíãîâ ñ êàêîãî-òî ñàéòà (êîòîðûé íå ïðåäîñòàâëŸåò íèêàêîãî RSS). …ñòü ëè òàêèå ðåøåíèŸ? …ñëè äà, òî òêíèòå, ïîæàëóéñòà, íîñîì â äîêè (àëãîðèòì) è/èëè ïîäîáíûå ïðîãðàììû/ñêðèïòû (ïðåäïî÷òèòåëüíî íà C èëè PHP, íî íå ïðèíöèïèàëüíî).
‡àðàíåå áëàãîäàðåí.
AliMamed:
ïî ïîâîäó ïàðñèíãà:
[p]xml[/p], [p]domxml[/p]
ïî ïîâîäó ãðàáèíãà [p]strings[/p]
Xlex:
--- Öèòèðîâàòü ---AliMamed:
undefined
--- Êîíåö öèòàòû ---
òî ÷òî íàäî èñïîëüçîâàòü ýòè ôóíêöèè èòàê ïîíßòíî... Œåíß áîëüøå àëãîðèòì/ðåøåíèå èíòåðåñóåò...
Yukko:
ïîèñê ïî ôîðóìó ïî ñëîâó ïàðñèíã òàì ñòîëüêî ìàòåðèàëà â òîïèêàõ, ÷òî òåáå íà ìåñÿö ÷òèâà õâàòèò...
Xlex:
Yukko: ß áûñòðûé, õâàòèëî 30 ìèíóò =)
íå ñîâñåì òî, ÷òî íóæíî - èíòåðåñóåò îáùèé àëãîðèòì íå äëß îäíîãî ñàéòà, õîòß îäíà òåìà áûëà òàì âåñüìà áëèçêà (îáðàáîòêà ïðàéñ-ëèñòà), íî âñÞ íå ñîâñåì...
Íàâèãàöèÿ
Ïåðåéòè ê ïîëíîé âåðñèè