Forum Webscript.Ru

Общие => Базы данных => Тема начата: Elenka от 11 Апреля 2005, 16:09:38

Название: архивы в БД
Отправлено: Elenka от 11 Апреля 2005, 16:09:38
Вот в чем вопрос:
при больших объемах текстовой информации в БД, имеет ли смысл архивировать (сжимать) текст?
Какие оптимальные варианты для этих дел посоветуете?


спасибо
Название: архивы в БД
Отправлено: AliMamed от 11 Апреля 2005, 16:47:53
а по-конкретнее? о каких объемах речь? что за БД?
Название: архивы в БД
Отправлено: Меняздесьдавнонет от 11 Апреля 2005, 16:53:29
нет, нет смысла.
Название: архивы в БД
Отправлено: Elenka от 11 Апреля 2005, 17:11:58
Цитировать
а по-конкретнее? о каких объемах речь? что за БД?

БД пока думаю, mysql или postgre, наверно лучше все же postgre...
В объемах как раз и сомневаюсь, нужно ли под них это... максимум каждое поле с текстом порядка 500Кб, всреднем 1-5Кб, но таких полей тысячи каждый день добавляются.
Название: архивы в БД
Отправлено: commander от 11 Апреля 2005, 17:16:14
Elenka
ответ уже был... - не имеет... VACUUM (если postgres) делай почаще... и всё будет OK...
Название: архивы в БД
Отправлено: Меняздесьдавнонет от 11 Апреля 2005, 18:11:28
если данные в бд сжимать, то хранить их в бд нет смысла
Название: архивы в БД
Отправлено: Elenka от 11 Апреля 2005, 21:46:21
возможна ли и имеет ли смысл следующая схема: делаем архив, а на него из полей лишь ссылки в архиве ?
Название: архивы в БД
Отправлено: Меняздесьдавнонет от 11 Апреля 2005, 21:56:46
ЗАЧЕМ?
Название: архивы в БД
Отправлено: AliMamed от 11 Апреля 2005, 22:03:17
Цитировать
Elenka:
возможна ли и имеет ли смысл следующая схема: делаем архив, а на него из полей лишь ссылки в архиве ?

в этом случае нет смысла использовать БД, т.к. есть файловая система в принципе=)
Название: архивы в БД
Отправлено: Slike от 12 Апреля 2005, 13:50:31
возьмем поисковую систему, Google к примеру, они хранят данные сжатыми, но при запросе робот эти сжатые данные просматривает, как такое реализовать?
Название: архивы в БД
Отправлено: Меняздесьдавнонет от 12 Апреля 2005, 13:59:29
Цитировать
Slike:
Google к примеру, они хранят данные сжатыми

откуда такая информация?

и, повторю вопрос - ЗАЧЕМ?
Название: архивы в БД
Отправлено: Green Kakadu от 12 Апреля 2005, 14:25:15
Цитировать
Slike:
но при запросе робот эти сжатые данные просматривает, как такое реализовать?

не хранят они сжатых данных. Там создается нечто вроде инвертированных индексов, по которым и происходит поиск
Название: архивы в БД
Отправлено: Slike от 12 Апреля 2005, 21:11:24
Цитировать
откуда такая информация?


из первоисточника

Цитировать
не хранят они сжатых данных. Там создается нечто вроде инвертированных индексов, по которым и происходит поиск


цитата из документа:

Цитировать
The repository contains the full HTML of every web page. Each page is compressed using zlib (see RFC1950). The choice of compression technique is a tradeoff between speed and compression ratio. We chose zlib\'s speed over a significant improvement in compression offered by bzip. The compression rate of bzip was approximately 4 to 1 on the repository as compared to zlib\'s 3 to 1 compression. In the repository, the documents are stored one after the other and are prefixed by docID


http://www-db.stanford.edu/~backrub/google.html

это текст сергея брина и Лоренса Пейджа - основателей Гугла
Название: архивы в БД
Отправлено: Меняздесьдавнонет от 13 Апреля 2005, 00:15:31
эту страну погубят люди, которые смотрят в книгу, а видят фигу.

и где здесь написано, что при запросе робот что-то там просматривает?