Программирование > Теория, алгоритмы и стандарты

Анализ содержания страницы

(1/2) > >>

L_G:
Передо мной стоит задача анлиза содержания страницы. Т.е. Я имею распарсенную html страницу - без тэгов, только текст. Как я могу определить "тему" её содержания? Что бы сгенерировать что-то наподобие кейворда... Пробовал по количеству повторений слов, при этом исключая предлоги и т.д. - но получается не совсем то, что мне нужно. Может у кого есть какие идеи?

Макс:
кросспостинг на данном форуме запрещен.

ThE0ReTiC:
Макс
[off] извини - я тему открыл снова [/off]
переехали

Макс:
ThE0ReTiC
[off] если честно, то я во многом согласен с РомикШефом.  Если частота слов его не устраивает, то ИМХО никак не сделать. [/off]
L_G
А может частота слов, но только существительных ?

L_G:

--- Цитировать ---Макс:
А может частота слов, но только существительных ?
--- Конец цитаты ---

Хм....но ведь это какой алгоритм придется писать на определение части слова?! при том, что анализ будет вестись в основном англоязычных ресурсов и нужно быть не просто программистом, но и отлично владеть языком, чтобы написать такое....
Но ведь Google AdSense как-то определяет тематику страницы, при этом довольно неплохо...

Навигация

[0] Главная страница сообщений

[#] Следующая страница

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 
Перейти к полной версии