• На главную



  • /a>

    МТ-1928-вылет 500-1000 мм
    МТ 1928
    tehnosvar.ru
    Интернет жизнь

    Процесс конвертиции из MS Word (*.doc) в HTML с фильтрацией мусорных html тэгов.

    Имеем сканированный и распознанный текст с картинками, который был сохранен в формат MS Word.

    Задача: привести в состояние, пригодное для публикации матераила в систему управления контенто (CMS), причем, с сохранением картинок в тексте.

    1. Работу ведем в отдельной директории комьютера.
    2. Открываем текст в Word, пересохраняем «Как вэб страница с фильтром». Закрываем Word.
    3. Сохраненный вариант открываем через программу NVU. Жмем Ctrl+A, жмем правой кнопкой, выбераем «Убрать все стили текста». Сохранить (не забываем сохранять под другим именем типа konvert_01, convert_02, и тд. Чтоб в случае ошибки программы можно было откатиться на последнюю успешную версию.
    Внимание!!!! Убъется все форматирование, в том числе выделения жирным, курсовом, H1, H2, Hx….. Но останутся ссылки до картинок, и еще пока куча Wordовского мусора.
    3. Открываем получившийся файл в Dreamweaver.
    Основная оставшаяся проблема – это убить вот такую дрянь:
    <p class="MsoNormal" style="margin: 0cm 0cm 35.05pt 0.25pt; background: white none repeat scroll 0%; text-align: center; line-height: 21.35pt; -moz-background-clip: initial; -moz-background-origin: initial; -moz-background-inline-policy: initial;" align="center">

    Делаем вот такую автозамену. Она убивает всю ерунду из КЛАССов (class="MsoNormal")



    Затем тоже самое повторяем и со Стилями ( style=……)

    Если тексты большие, тов это время можно уходить курить. Процесс порой может занимать десятки минут.

    Делаем такую замену, дабы вычистить следы предыдущих замен. Не забываем проделать как с Классами, так и со Стилями (class="unikalnijtxt" и style ="unikalnijtxt").



    Ну вот в принципе и всё.
    Останется только удалить мусор из DIVов, Затем пустые <div></div>, <p></p>,
    Пустые строки, лишьние <br>, и всё.




    Если у вас такая ситуация, что вам нужно сохранить форматирование текста (Жирный, курсив), то не нужно использовать программу NVU. Но тогда вы на порядок увеличите себе количество замен в Dreamweaver. А скорее всего вообще запутаетесь, и ничего не получится.

    Рассчитывать на другие чудо способы по пересохранению ВОРДа в правильный ХТМЛ я бы не стал. По крайней мере, на данный, момент я не нашел такой программы.