Forum Webscript.Ru
Общие => Базы данных => Тема начата: Elenka от 11 Апреля 2005, 16:09:38
-
Вот в чем вопрос:
при больших объемах текстовой информации в БД, имеет ли смысл архивировать (сжимать) текст?
Какие оптимальные варианты для этих дел посоветуете?
спасибо
-
а по-конкретнее? о каких объемах речь? что за БД?
-
нет, нет смысла.
-
а по-конкретнее? о каких объемах речь? что за БД?
БД пока думаю, mysql или postgre, наверно лучше все же postgre...
В объемах как раз и сомневаюсь, нужно ли под них это... максимум каждое поле с текстом порядка 500Кб, всреднем 1-5Кб, но таких полей тысячи каждый день добавляются.
-
Elenka
ответ уже был... - не имеет... VACUUM (если postgres) делай почаще... и всё будет OK...
-
если данные в бд сжимать, то хранить их в бд нет смысла
-
возможна ли и имеет ли смысл следующая схема: делаем архив, а на него из полей лишь ссылки в архиве ?
-
ЗАЧЕМ?
-
Elenka:
возможна ли и имеет ли смысл следующая схема: делаем архив, а на него из полей лишь ссылки в архиве ?
в этом случае нет смысла использовать БД, т.к. есть файловая система в принципе=)
-
возьмем поисковую систему, Google к примеру, они хранят данные сжатыми, но при запросе робот эти сжатые данные просматривает, как такое реализовать?
-
Slike:
Google к примеру, они хранят данные сжатыми
откуда такая информация?
и, повторю вопрос - ЗАЧЕМ?
-
Slike:
но при запросе робот эти сжатые данные просматривает, как такое реализовать?
не хранят они сжатых данных. Там создается нечто вроде инвертированных индексов, по которым и происходит поиск
-
откуда такая информация?
из первоисточника
не хранят они сжатых данных. Там создается нечто вроде инвертированных индексов, по которым и происходит поиск
цитата из документа:
The repository contains the full HTML of every web page. Each page is compressed using zlib (see RFC1950). The choice of compression technique is a tradeoff between speed and compression ratio. We chose zlib\'s speed over a significant improvement in compression offered by bzip. The compression rate of bzip was approximately 4 to 1 on the repository as compared to zlib\'s 3 to 1 compression. In the repository, the documents are stored one after the other and are prefixed by docID
http://www-db.stanford.edu/~backrub/google.html
это текст сергея брина и Лоренса Пейджа - основателей Гугла
-
эту страну погубят люди, которые смотрят в книгу, а видят фигу.
и где здесь написано, что при запросе робот что-то там просматривает?