вот кстати перечень всех тем.. сразу видны проблемные места при организации поиска в такой помойке, как интернет:
Автоматическая обработка текста, лингвистика
- Статистические и семантические методы текстового поиска применительно к вебу
- Морфологические, синтаксические анализаторы
- Снятие лексической, семантической неоднозначности
- Нахождение и использование кросс-языковых ресурсов
Анализ поисковых запросов, сеансов и протоколов
- Построение и использование тезаурусов по пользовательским сеансам
- Тематическая классификация запросов
- Моделирование информационной потребности и поведения пользователя
- Влияние сеанса и профиля пользователя на ранжирование
- Статистическая и синтаксическая сегментация запроса, переформулирование запроса
Мультимедийный поиск
- Поиск изображений и музыки по содержанию
- Кластеризация и классификация изображений
- Оценка качества поиска
- Автоматические системы оценки качества поиска
- Анализ поведения пользователей для оценки качества
- Производительность и распределенные системы
- Эффективное исполнение запроса в распределенных системах: переформулирование запроса и выбор текстовых баз
- Оптимизация, учитывающая ранжирование; частичные ответы
Анализ ссылок в вебе
- Меры популярности страниц, построенные на основе анализа ссылок
- Обнаружение и анализ сообществ, их тематики, учет знания о сообществах в поиске
- Обратная связь со стороны поисковых систем
- Динамика появления и исчезновения ссылок, характеристики и модели веб-графа
- Структура веб-сайтов и веб-страниц; полудубликаты
- Сегментация веб-страниц, выделение записей баз данных и данных, содержащихся в страницах, сгенерированных по шаблонам
- Выявление структуры и функциональности веб-сайтов
- Алгоритмы выявления дублей документов и «зеркал» сайтов; построение и использование сигнатур, устойчивых к небольшим - изменениям документов
Автоматическая классификация веб-страниц и веб-сайтов
- Веб-каталог как учитель: классификация по зашумленным или неполным обучающим выборкам
- Классификация с использованием гиперссылок
- Построение и модификация тематических рубрикаторов на основе веб-корпуса
- Анализ стиля
- Построение жанрового рубрикатора Веба; прослеживание эволюции традиционных и выявление новых функциональных стилей в Вебе
- Жанровая классификация веб-текстов
- Выявление положительных и отрицательных оценок в текстах
- Выявление ангажированных и рекламных текстов
Автоматическая обработка новостей
- Разбиение потока новостных сообщений на событийные сюжеты
- Построение иерархической структуры событийных сюжетов
- Представление событийного сюжета: аннотирование, исправление фактических и стилистических ошибок в аннотациях
- Устранение избыточности и дублирования в новостных сюжетах
- Технология извлечения фактов для анализа новостей
- Персонализация новостного потока
- Рапространение информации в лентах СМИ и дневниках
- Автоматическое аннотирование, отвечание на вопросы
- Составление аннотации для набора документов: аннотирование результата поиска, новостного сюжета, построение summary для сайта и т.п.
- Аннотирование документов в зависимости от контекста: поискового запроса, жанра документа, пользовательского профиля и т.п.
Представление результата поиска: структурирование, аннотирование, отвечание на вопросы
- Учет текстов ссылок при аннотировании документов, сайтов и результатов поиска
- Рекомендующие системы и совместная фильтрация
- Анализ поведения пользователей интернет-магазинов, переходов пользователей
- Совместный анализ предпочтений пользователей