Îáùèå > Âåá-òåõíîëîãèè

HTML parsing

(1/2) > >>

Xlex:
ˆ ñíîâà çäðàâñòâóéòå.  ‘êàæèòå, ïîæàëóéñòà, åñòü ëè êàêèå ìåòîäû äëŸ ïàðñèíãà HTML ñòðàíèö?  ˆíòåðåñóåò íå òîëüêî è íå ñòîëüêî ïðåîáðàçîâàíèå HTML â äåðåâî âèäà:  [] => [] => [ = \'Some title\'] è ò.ä.  ñêîëüêî ïàðñèíã äëŸ ïîëó÷åíèŸ ñîäåðæèìîãî ñòðàíèöû. ’î åñòü, íàïðèìåð, Ÿ õî÷ó ïîëó÷àòü êóðñ âàëþò ñ rbc.ru, èëè ãðàáèòü çàãîëîâêè ñâåæèõ ïîñòèíãîâ ñ êàêîãî-òî ñàéòà (êîòîðûé íå ïðåäîñòàâëŸåò íèêàêîãî RSS).  …ñòü ëè òàêèå ðåøåíèŸ? …ñëè äà, òî òêíèòå, ïîæàëóéñòà, íîñîì â äîêè (àëãîðèòì) è/èëè ïîäîáíûå ïðîãðàììû/ñêðèïòû (ïðåäïî÷òèòåëüíî íà C èëè PHP, íî íå ïðèíöèïèàëüíî).  

‡àðàíåå áëàãîäàðåí.

AliMamed:
ïî ïîâîäó ïàðñèíãà:
[p]xml[/p], [p]domxml[/p]

ïî ïîâîäó ãðàáèíãà [p]strings[/p]

Xlex:

--- Öèòèðîâàòü ---AliMamed:
undefined
--- Êîíåö öèòàòû ---
òî ÷òî íàäî èñïîëüçîâàòü ýòè ôóíêöèè èòàê ïîíßòíî... Œåíß áîëüøå àëãîðèòì/ðåøåíèå èíòåðåñóåò...

Yukko:
ïîèñê ïî ôîðóìó ïî ñëîâó ïàðñèíã òàì ñòîëüêî ìàòåðèàëà â òîïèêàõ, ÷òî òåáå íà ìåñÿö ÷òèâà õâàòèò...

Xlex:
Yukko: ß áûñòðûé, õâàòèëî 30 ìèíóò =)
íå ñîâñåì òî, ÷òî íóæíî - èíòåðåñóåò îáùèé àëãîðèòì íå äëß îäíîãî ñàéòà, õîòß îäíà òåìà áûëà òàì âåñüìà áëèçêà (îáðàáîòêà ïðàéñ-ëèñòà), íî âñÞ íå ñîâñåì...

Íàâèãàöèÿ

[0] Ãëàâíàÿ ñòðàíèöà ñîîáùåíèé

[#] Ñëåäóþùàÿ ñòðàíèöà

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 
Ïåðåéòè ê ïîëíîé âåðñèè