Программирование > Теория, алгоритмы и стандарты
Анализ содержания страницы
Макс:
L_G
--- Цитировать ---Хм....но ведь это какой алгоритм придется писать на определение части слова?! при том, что анализ будет вестись в основном англоязычных ресурсов и нужно быть не просто программистом, но и отлично владеть языком, чтобы написать такое....
--- Конец цитаты ---
а ты думал в сказку попал ?
Google использует (скорее всего) свой поисковій индекс для этого.
И у него нет такого (чесно говоря глупого) огрничения :
--- Цитировать ---распарсенную html страницу - без тэгов, только текст
--- Конец цитаты ---
поєтому он более точно может определить и тему и ключевые слова.
Сделай робота, который бы прошелся по всем сайтам с твоей базы и вырезал бы тему, мета-теги и прочую инфу на твое усмотрение.
КшЫуфксрук:
> Если частота слов его не устраивает, то ИМХО никак не сделать.
Это не совсем так. Просто решение такой задачи далеко выходит за рамки "написать за пару вечеров". Тут докторской пахнет. У многих коллективов лингвистов есть подобные наработки. Искать в Яндексе на тему "автоматического аннотирования" или "тематической кластеризации". Только все это дело стоит немалых денег, работает зачастую не очень хорошо.
Поэтому стоит подумать, действительно ли ставится задача именно автоматического определение тематики. Все таки для выдачи контекстной рекламы обычно не нужен глубокий анализ. Число "тем" ограничено, и для каждой можно заранее создать набор ключевых слов, которые затем и искать на странице.
metton:
2КшЫуфксрук
Полностью согласен.
Я как раз учусь на отделении прикладной лингвистики.
Сам ещё не сталкивался с подобными проблемами, но, как нам говорили на декциях, это очень сложная задача (представляю). Если иметь алгоритм такого рода со стопроцентным (да даже и меньшим) успехом определения тематики - это было бы хорошим подспорьем (базой) в создании искусственного интеллекта (имеется ввиду, конечно, его лингвистическую часть).
Werwolf13:
Определение "темы" в общем случае практически неосуществимо. Причина этого кроется в произвольности речи, неоднозначности контекста, несоответствия формально построенных предикатов и множеств их определения и т. д. В любом случае некоторых результатов можно добиться четко разбив множество входящщих страниц на непересекающиеся классы (что собственно и требуется) используя анализ схожести документа с "эталонными" документами каждого класса. Но понятно, что количество классов зависит от наявного набора "эталонных" контекстов. Самое главное в любом таком алгоритме: он должен руководствоваться некоторым уже существующим у него набором информации т. е. опираться в своем "умозаключении" на некоторый "опыт" (проанализируй, для примера, как ты сам решал бы такую задачу бес помощи компютера). Однако, мне воистину интересно, на основании чего у тебя возникла подобная задача? Можешь -- отпиши. С уважением -- Я.
Навигация
Перейти к полной версии