Автор Тема: Анализ содержания страницы (Прочитано 7762 раз)

L_G · « : 21 Августа 2003, 14:55:12 »

Передо мной стоит задача анлиза содержания страницы. Т.е. Я имею распарсенную html страницу - без тэгов, только текст. Как я могу определить "тему" её содержания? Что бы сгенерировать что-то наподобие кейворда... Пробовал по количеству повторений слов, при этом исключая предлоги и т.д. - но получается не совсем то, что мне нужно. Может у кого есть какие идеи?

Макс · « **Ответ #1 :** 21 Августа 2003, 15:31:15 »

кросспостинг на данном форуме запрещен.

ThE0ReTiC · « **Ответ #2 :** 21 Августа 2003, 15:43:10 »

Макс
[off] извини - я тему открыл снова [/off]
переехали

Макс · « **Ответ #3 :** 21 Августа 2003, 15:56:35 »

ThE0ReTiC
[off] если честно, то я во многом согласен с РомикШефом. Если частота слов его не устраивает, то ИМХО никак не сделать. [/off]
L_G
А может частота слов, но только существительных ?

L_G · « **Ответ #4 :** 22 Августа 2003, 07:42:59 »

Цитировать

Макс:
А может частота слов, но только существительных ?

Хм....но ведь это какой алгоритм придется писать на определение части слова?! при том, что анализ будет вестись в основном англоязычных ресурсов и нужно быть не просто программистом, но и отлично владеть языком, чтобы написать такое....
Но ведь Google AdSense как-то определяет тематику страницы, при этом довольно неплохо...

Макс · « **Ответ #5 :** 22 Августа 2003, 14:47:58 »

L_G

Цитировать

Хм....но ведь это какой алгоритм придется писать на определение части слова?! при том, что анализ будет вестись в основном англоязычных ресурсов и нужно быть не просто программистом, но и отлично владеть языком, чтобы написать такое....

а ты думал в сказку попал ?
Google использует (скорее всего) свой поисковій индекс для этого.
И у него нет такого (чесно говоря глупого) огрничения :

Цитировать

распарсенную html страницу - без тэгов, только текст

поєтому он более точно может определить и тему и ключевые слова.

Сделай робота, который бы прошелся по всем сайтам с твоей базы и вырезал бы тему, мета-теги и прочую инфу на твое усмотрение.

КшЫуфксрук · « **Ответ #6 :** 23 Августа 2003, 19:38:06 »

> Если частота слов его не устраивает, то ИМХО никак не сделать.

Это не совсем так. Просто решение такой задачи далеко выходит за рамки "написать за пару вечеров". Тут докторской пахнет. У многих коллективов лингвистов есть подобные наработки. Искать в Яндексе на тему "автоматического аннотирования" или "тематической кластеризации". Только все это дело стоит немалых денег, работает зачастую не очень хорошо.

Поэтому стоит подумать, действительно ли ставится задача именно автоматического определение тематики. Все таки для выдачи контекстной рекламы обычно не нужен глубокий анализ. Число "тем" ограничено, и для каждой можно заранее создать набор ключевых слов, которые затем и искать на странице.

metton · « **Ответ #7 :** 24 Августа 2003, 00:10:22 »

2КшЫуфксрук
Полностью согласен.
Я как раз учусь на отделении прикладной лингвистики.
Сам ещё не сталкивался с подобными проблемами, но, как нам говорили на декциях, это очень сложная задача (представляю). Если иметь алгоритм такого рода со стопроцентным (да даже и меньшим) успехом определения тематики - это было бы хорошим подспорьем (базой) в создании искусственного интеллекта (имеется ввиду, конечно, его лингвистическую часть).

Werwolf13

Определение "темы" в общем случае практически неосуществимо. Причина этого кроется в произвольности речи, неоднозначности контекста, несоответствия формально построенных предикатов и множеств их определения и т. д. В любом случае некоторых результатов можно добиться четко разбив множество входящщих страниц на непересекающиеся классы (что собственно и требуется) используя анализ схожести документа с "эталонными" документами каждого класса. Но понятно, что количество классов зависит от наявного набора "эталонных" контекстов. Самое главное в любом таком алгоритме: он должен руководствоваться некоторым уже существующим у него набором информации т. е. опираться в своем "умозаключении" на некоторый "опыт" (проанализируй, для примера, как ты сам решал бы такую задачу бес помощи компютера). Однако, мне воистину интересно, на основании чего у тебя возникла подобная задача? Можешь -- отпиши. С уважением -- Я.

Новости:

Автор Тема: Анализ содержания страницы (Прочитано 7762 раз)