Программирование > Теория, алгоритмы и стандарты
Анализ содержания страницы
L_G:
Передо мной стоит задача анлиза содержания страницы. Т.е. Я имею распарсенную html страницу - без тэгов, только текст. Как я могу определить "тему" её содержания? Что бы сгенерировать что-то наподобие кейворда... Пробовал по количеству повторений слов, при этом исключая предлоги и т.д. - но получается не совсем то, что мне нужно. Может у кого есть какие идеи?
Макс:
кросспостинг на данном форуме запрещен.
ThE0ReTiC:
Макс
[off] извини - я тему открыл снова [/off]
переехали
Макс:
ThE0ReTiC
[off] если честно, то я во многом согласен с РомикШефом. Если частота слов его не устраивает, то ИМХО никак не сделать. [/off]
L_G
А может частота слов, но только существительных ?
L_G:
--- Цитировать ---Макс:
А может частота слов, но только существительных ?
--- Конец цитаты ---
Хм....но ведь это какой алгоритм придется писать на определение части слова?! при том, что анализ будет вестись в основном англоязычных ресурсов и нужно быть не просто программистом, но и отлично владеть языком, чтобы написать такое....
Но ведь Google AdSense как-то определяет тематику страницы, при этом довольно неплохо...
Навигация
Перейти к полной версии