• На главную



  • /a>

    Перевозки гидроборт
    Перевозки недорого. Экономно! Антикризисные тарифы! Недорого! Бюджетно
    nota-pereezd.ru
    Iphone mockup video generator
    iphone mockup
    presentationkit.pro
    Молочко для тела tony moly масло
    Крема, маски, патчи, тинты, тушь от Tony Moly. Наложенный платеж, доставка
    etonymoly.ru
    Интернет жизнь

    Процесс конвертиции из MS Word (*.doc) в HTML с фильтрацией мусорных html тэгов.

    Имеем сканированный и распознанный текст с картинками, который был сохранен в формат MS Word.

    Задача: привести в состояние, пригодное для публикации матераила в систему управления контенто (CMS), причем, с сохранением картинок в тексте.

    1. Работу ведем в отдельной директории комьютера.
    2. Открываем текст в Word, пересохраняем «Как вэб страница с фильтром». Закрываем Word.
    3. Сохраненный вариант открываем через программу NVU. Жмем Ctrl+A, жмем правой кнопкой, выбераем «Убрать все стили текста». Сохранить (не забываем сохранять под другим именем типа konvert_01, convert_02, и тд. Чтоб в случае ошибки программы можно было откатиться на последнюю успешную версию.
    Внимание!!!! Убъется все форматирование, в том числе выделения жирным, курсовом, H1, H2, Hx….. Но останутся ссылки до картинок, и еще пока куча Wordовского мусора.
    3. Открываем получившийся файл в Dreamweaver.
    Основная оставшаяся проблема – это убить вот такую дрянь:
    <p class="MsoNormal" style="margin: 0cm 0cm 35.05pt 0.25pt; background: white none repeat scroll 0%; text-align: center; line-height: 21.35pt; -moz-background-clip: initial; -moz-background-origin: initial; -moz-background-inline-policy: initial;" align="center">

    Делаем вот такую автозамену. Она убивает всю ерунду из КЛАССов (class="MsoNormal")



    Затем тоже самое повторяем и со Стилями ( style=……)

    Если тексты большие, тов это время можно уходить курить. Процесс порой может занимать десятки минут.

    Делаем такую замену, дабы вычистить следы предыдущих замен. Не забываем проделать как с Классами, так и со Стилями (class="unikalnijtxt" и style ="unikalnijtxt").



    Ну вот в принципе и всё.
    Останется только удалить мусор из DIVов, Затем пустые <div></div>, <p></p>,
    Пустые строки, лишьние <br>, и всё.




    Если у вас такая ситуация, что вам нужно сохранить форматирование текста (Жирный, курсив), то не нужно использовать программу NVU. Но тогда вы на порядок увеличите себе количество замен в Dreamweaver. А скорее всего вообще запутаетесь, и ничего не получится.

    Рассчитывать на другие чудо способы по пересохранению ВОРДа в правильный ХТМЛ я бы не стал. По крайней мере, на данный, момент я не нашел такой программы.