Автор Тема: doc2html  (Прочитано 2563 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн glebushka

  • студент
  • Ветеран
  • *****
  • Сообщений: 944
  • +0/-0
  • 2
    • Просмотр профиля
    • http://www.intellectuals.ru
doc2html
« : 07 Февраля 2004, 04:23:48 »
Тут начальство подкинуло интересную задачку. Вообщем так:

Имеем:
1) 4900 файлов в формате msword (самых что ни на есть разных версий - это архив, начиная с 1992 года по наши дни).
2) Самопальный движок для сайта (движок не мой, да и сайтом этим я не занимаюсь:), занимается начальство:().

Необходимо:
1) Пергнать все эти файлы в формат ХТМЛ (но оставив минимальное форматирование, т.е. теги

,, , и т.п.
+ бонус, в кадом из файлов есть таблица, которую нужно тоже сохранить:(
2) добавить всю эту хрень на сайт. Причём, разумеется, в рамках движка. Не в смысле всё обязательно постить через форму (начальству всё равно как это будет сделано), а в смысле, что зайдя в панель управления движка все эти докумменты длолжны быть видны как "родные", сгенеренные движком:(

__________________________________
Некоторые методы решения...
1. Сначала надо всё это перегнать в ХТМЛ.
1) Существуют программы которые всё это дело вроде бы умеют конвертить, тольк они:
а) платные
б) ограниччения по версиям.
2) Есть маелко-мягкая приблуда к 2000-ному офису умеющая ту погань которая получается после стандартного сохранения переводить в человеческий вид.
Я решил пока остановится на втором...
Кстати если у кого есть прога по п.1. плиз киньте на gleb"собака"abik"точка"ru
По второму пункту, думаю на вижуал барсике написат ьпрогу, которая поочерёдно откроет вордом все файлы и сохранит их в ХТМЛ.
Есть 3 путь, с помощью перл. Если кого-нибудь есть рабочие куски кода, или ссылки на модули, которые умеют конвертить doc в ХТМЛ (обращаю внимание - таблицы нужно сохранить), киньте плиз. И http://search.cpan.org чего-то глючит:((( постоянно ошибку выдаёт.

2. Ну так как движок написан на Перл ,я думаю разберусь что к чему, смогу записать ему в базу всё что нужно.
Только пока изучал код, заметил несколько особенностей. во первых - база текстовая. Во вторых зачем-то всё храниться в базе в той кодировке, в которой кодируют урлы (блин, забыл как называется?).
И каждый раз когда нужно чего-нить оттуда взять используется:
=~ s/%([a-fA-F0-9][a-fA-F0-9])/pack("C", hex($1))/eg;
Вопрос в студию: зачем такой изврат?
И как конвертнуть обратно?

Ну к чему все это, лучше бы водки выпили...

Оффлайн NeoNox

  • Координатор
  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 3012
  • +0/-0
  • 0
    • Просмотр профиля
doc2html
« Ответ #1 : 09 Февраля 2004, 14:14:00 »
Цитировать
glebushka:
Есть 3 путь, с помощью перл.

Откуда такая уверенность?
Цитировать
glebushka:
Вопрос в студию: зачем такой изврат?

Это вопрос наверное нужно адресовать разработчикам, не так ли?
Цитировать
glebushka:
И как конвертнуть обратно?

perldoc -f unpack;
The documentations is your friend

Оффлайн metton

  • access granted
  • Старожил
  • ****
  • Сообщений: 320
  • +0/-0
  • 2
    • Просмотр профиля
    • http://bluejack.ru/
doc2html
« Ответ #2 : 13 Февраля 2004, 01:12:53 »
2glebushka
Совсем недавно решал практически такую же проблему. Только файлов было около 200. Из-за ограниченности во времени так и не нашёл человеческого решения. :(
Делал всё руками: открываем, сохраняем в HTML. Потом все файлы этой приблудой для w2k (если ты про MS Office HTML Filter) чистим. Вставляем в дизайн.

Но всё же интересно: мож кто решал эту проблему лучшим способом?
 BlueJacking среди нас

 

Sitemap 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28