Автор Тема: Анализ содержания страницы  (Прочитано 5888 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн L_G

  • Заглянувший
  • Новичок
  • *
  • Сообщений: 7
  • +0/-0
  • 0
    • Просмотр профиля
    • http://www.zarinsk.com/
Анализ содержания страницы
« : 21 Августа 2003, 14:55:12 »
Передо мной стоит задача анлиза содержания страницы. Т.е. Я имею распарсенную html страницу - без тэгов, только текст. Как я могу определить "тему" её содержания? Что бы сгенерировать что-то наподобие кейворда... Пробовал по количеству повторений слов, при этом исключая предлоги и т.д. - но получается не совсем то, что мне нужно. Может у кого есть какие идеи?

Оффлайн Макс

  • vir magni ingenii
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 3534
  • +0/-0
  • 2
    • Просмотр профиля
Анализ содержания страницы
« Ответ #1 : 21 Августа 2003, 15:31:15 »
кросспостинг на данном форуме запрещен.
First learn computer science and all the theory. Next develop a programming style. Then forget all that and just hack. ( George Carrette )

Оффлайн ThE0ReTiC

  • Главный по тарелочкам
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 4041
  • +2/-0
  • 2
    • Просмотр профиля
    • http://
Анализ содержания страницы
« Ответ #2 : 21 Августа 2003, 15:43:10 »
Макс
[off] извини - я тему открыл снова [/off]
переехали
AS IS...

Оффлайн Макс

  • vir magni ingenii
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 3534
  • +0/-0
  • 2
    • Просмотр профиля
Анализ содержания страницы
« Ответ #3 : 21 Августа 2003, 15:56:35 »
ThE0ReTiC
[off] если честно, то я во многом согласен с РомикШефом.  Если частота слов его не устраивает, то ИМХО никак не сделать. [/off]
L_G
А может частота слов, но только существительных ?
First learn computer science and all the theory. Next develop a programming style. Then forget all that and just hack. ( George Carrette )

Оффлайн L_G

  • Заглянувший
  • Новичок
  • *
  • Сообщений: 7
  • +0/-0
  • 0
    • Просмотр профиля
    • http://www.zarinsk.com/
Анализ содержания страницы
« Ответ #4 : 22 Августа 2003, 07:42:59 »
Цитировать
Макс:
А может частота слов, но только существительных ?

Хм....но ведь это какой алгоритм придется писать на определение части слова?! при том, что анализ будет вестись в основном англоязычных ресурсов и нужно быть не просто программистом, но и отлично владеть языком, чтобы написать такое....
Но ведь Google AdSense как-то определяет тематику страницы, при этом довольно неплохо...

Оффлайн Макс

  • vir magni ingenii
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 3534
  • +0/-0
  • 2
    • Просмотр профиля
Анализ содержания страницы
« Ответ #5 : 22 Августа 2003, 14:47:58 »
L_G
Цитировать
Хм....но ведь это какой алгоритм придется писать на определение части слова?! при том, что анализ будет вестись в основном англоязычных ресурсов и нужно быть не просто программистом, но и отлично владеть языком, чтобы написать такое....
а ты думал в сказку попал ?
Google использует (скорее всего) свой поисковій индекс для этого.
И у него нет такого (чесно говоря глупого) огрничения :
Цитировать
распарсенную html страницу - без тэгов, только текст
поєтому он более точно может определить и тему и ключевые слова.

Сделай робота, который бы прошелся по всем сайтам с твоей базы и вырезал бы тему, мета-теги и прочую инфу на твое усмотрение.
First learn computer science and all the theory. Next develop a programming style. Then forget all that and just hack. ( George Carrette )

Оффлайн КшЫуфксрук

  • Завсегдатай
  • Пользователь
  • **
  • Сообщений: 99
  • +0/-0
  • 0
    • Просмотр профиля
    • http://risearch.org/
Анализ содержания страницы
« Ответ #6 : 23 Августа 2003, 19:38:06 »
> Если частота слов его не устраивает, то ИМХО никак не сделать.

Это не совсем так. Просто решение такой задачи далеко выходит за рамки "написать за пару вечеров". Тут докторской пахнет. У многих коллективов лингвистов есть подобные наработки. Искать в Яндексе на тему "автоматического аннотирования" или "тематической кластеризации". Только все это дело стоит немалых денег, работает зачастую не очень хорошо.

Поэтому стоит подумать, действительно ли ставится задача именно автоматического определение тематики. Все таки для выдачи контекстной рекламы обычно не нужен глубокий анализ. Число "тем" ограничено, и для каждой можно заранее создать набор ключевых слов, которые затем и искать на странице.

Оффлайн metton

  • access granted
  • Старожил
  • ****
  • Сообщений: 320
  • +0/-0
  • 2
    • Просмотр профиля
    • http://bluejack.ru/
Анализ содержания страницы
« Ответ #7 : 24 Августа 2003, 00:10:22 »
2КшЫуфксрук
Полностью согласен.
Я как раз учусь на отделении прикладной лингвистики.
Сам ещё не сталкивался с подобными проблемами, но, как нам говорили на декциях, это очень сложная задача (представляю). Если иметь алгоритм такого рода со стопроцентным (да даже и меньшим) успехом определения тематики - это было бы хорошим подспорьем (базой) в создании искусственного интеллекта (имеется ввиду, конечно, его лингвистическую часть).
 BlueJacking среди нас

Оффлайн Werwolf13

  • Завсегдатай
  • Пользователь
  • **
  • Сообщений: 76
  • +0/-0
  • 0
    • Просмотр профиля
    • http://
Анализ содержания страницы
« Ответ #8 : 20 Сентября 2003, 18:03:37 »
Определение "темы" в общем случае практически неосуществимо. Причина этого кроется в произвольности речи, неоднозначности контекста, несоответствия формально построенных предикатов и множеств их определения и т. д. В любом случае некоторых результатов можно добиться четко разбив множество входящщих страниц на непересекающиеся классы (что собственно и требуется) используя анализ схожести документа с "эталонными" документами каждого класса. Но понятно, что количество классов зависит от наявного набора "эталонных" контекстов. Самое главное в любом таком алгоритме: он должен руководствоваться некоторым уже существующим у него набором информации т. е. опираться в своем "умозаключении" на некоторый "опыт" (проанализируй, для примера, как ты сам решал бы такую задачу бес помощи компютера). Однако, мне воистину интересно, на основании чего у тебя возникла подобная задача? Можешь -- отпиши. С уважением -- Я.

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28