Forum Webscript.Ru

Программирование => Теория, алгоритмы и стандарты => Тема начата: L_G от 21 Августа 2003, 14:55:12

Название: Анализ содержания страницы
Отправлено: L_G от 21 Августа 2003, 14:55:12: Передо мной стоит задача анлиза содержания страницы. Т.е. Я имею распарсенную html страницу - без тэгов, только текст. Как я могу определить "тему" её содержания? Что бы сгенерировать что-то наподобие кейворда... Пробовал по количеству повторений слов, при этом исключая предлоги и т.д. - но получается не совсем то, что мне нужно. Может у кого есть какие идеи?
Название: Анализ содержания страницы
Отправлено: Макс от 21 Августа 2003, 15:31:15: кросспостинг на данном форуме запрещен.
Название: Анализ содержания страницы
Отправлено: ThE0ReTiC от 21 Августа 2003, 15:43:10: Макс
[off] извини - я тему открыл снова [/off]
переехали
Название: Анализ содержания страницы
Отправлено: Макс от 21 Августа 2003, 15:56:35: ThE0ReTiC
[off] если честно, то я во многом согласен с РомикШефом. Если частота слов его не устраивает, то ИМХО никак не сделать. [/off]
L_G
А может частота слов, но только существительных ?
Название: Анализ содержания страницы
Отправлено: L_G от 22 Августа 2003, 07:42:59: Цитировать
Макс:
А может частота слов, но только существительных ?

Хм....но ведь это какой алгоритм придется писать на определение части слова?! при том, что анализ будет вестись в основном англоязычных ресурсов и нужно быть не просто программистом, но и отлично владеть языком, чтобы написать такое....
Но ведь Google AdSense как-то определяет тематику страницы, при этом довольно неплохо...
Название: Анализ содержания страницы
Отправлено: Макс от 22 Августа 2003, 14:47:58: L_G
Цитировать
Хм....но ведь это какой алгоритм придется писать на определение части слова?! при том, что анализ будет вестись в основном англоязычных ресурсов и нужно быть не просто программистом, но и отлично владеть языком, чтобы написать такое....
а ты думал в сказку попал ?
Google использует (скорее всего) свой поисковій индекс для этого.
И у него нет такого (чесно говоря глупого) огрничения :
Цитировать
распарсенную html страницу - без тэгов, только текст
поєтому он более точно может определить и тему и ключевые слова.

Сделай робота, который бы прошелся по всем сайтам с твоей базы и вырезал бы тему, мета-теги и прочую инфу на твое усмотрение.
Название: Анализ содержания страницы
Отправлено: КшЫуфксрук от 23 Августа 2003, 19:38:06: > Если частота слов его не устраивает, то ИМХО никак не сделать.

Это не совсем так. Просто решение такой задачи далеко выходит за рамки "написать за пару вечеров". Тут докторской пахнет. У многих коллективов лингвистов есть подобные наработки. Искать в Яндексе на тему "автоматического аннотирования" или "тематической кластеризации". Только все это дело стоит немалых денег, работает зачастую не очень хорошо.

Поэтому стоит подумать, действительно ли ставится задача именно автоматического определение тематики. Все таки для выдачи контекстной рекламы обычно не нужен глубокий анализ. Число "тем" ограничено, и для каждой можно заранее создать набор ключевых слов, которые затем и искать на странице.
Название: Анализ содержания страницы
Отправлено: metton от 24 Августа 2003, 00:10:22: 2КшЫуфксрук
Полностью согласен.
Я как раз учусь на отделении прикладной лингвистики.
Сам ещё не сталкивался с подобными проблемами, но, как нам говорили на декциях, это очень сложная задача (представляю). Если иметь алгоритм такого рода со стопроцентным (да даже и меньшим) успехом определения тематики - это было бы хорошим подспорьем (базой) в создании искусственного интеллекта (имеется ввиду, конечно, его лингвистическую часть).
Название: Анализ содержания страницы
Отправлено: Werwolf13 от 20 Сентября 2003, 18:03:37: Определение "темы" в общем случае практически неосуществимо. Причина этого кроется в произвольности речи, неоднозначности контекста, несоответствия формально построенных предикатов и множеств их определения и т. д. В любом случае некоторых результатов можно добиться четко разбив множество входящщих страниц на непересекающиеся классы (что собственно и требуется) используя анализ схожести документа с "эталонными" документами каждого класса. Но понятно, что количество классов зависит от наявного набора "эталонных" контекстов. Самое главное в любом таком алгоритме: он должен руководствоваться некоторым уже существующим у него набором информации т. е. опираться в своем "умозаключении" на некоторый "опыт" (проанализируй, для примера, как ты сам решал бы такую задачу бес помощи компютера). Однако, мне воистину интересно, на основании чего у тебя возникла подобная задача? Можешь -- отпиши. С уважением -- Я.