Процесс конвертиции из MS Word (*.doc) в HTML с фильтрацией мусорных html тэгов.
Имеем сканированный и распознанный текст с картинками, который был сохранен в формат MS Word.
Задача: привести в состояние, пригодное для публикации матераила в систему управления контенто (CMS), причем, с сохранением картинок в тексте.
1. Работу ведем в отдельной директории комьютера.
2. Открываем текст в Word, пересохраняем «Как вэб страница с фильтром». Закрываем Word.
3. Сохраненный вариант открываем через программу NVU. Жмем Ctrl+A, жмем правой кнопкой, выбераем «Убрать все стили текста». Сохранить (не забываем сохранять под другим именем типа konvert_01, convert_02, и тд. Чтоб в случае ошибки программы можно было откатиться на последнюю успешную версию.
Внимание!!!! Убъется все форматирование, в том числе выделения жирным, курсовом, H1, H2, Hx….. Но останутся ссылки до картинок, и еще пока куча Wordовского мусора.
3. Открываем получившийся файл в Dreamweaver.
Основная оставшаяся проблема – это убить вот такую дрянь:
<p class="MsoNormal" style="margin: 0cm 0cm 35.05pt 0.25pt; background: white none repeat scroll 0%; text-align: center; line-height: 21.35pt; -moz-background-clip: initial; -moz-background-origin: initial; -moz-background-inline-policy: initial;" align="center">
Делаем вот такую автозамену. Она убивает всю ерунду из КЛАССов (class="MsoNormal")
Затем тоже самое повторяем и со Стилями ( style=……)
Если тексты большие, тов это время можно уходить курить. Процесс порой может занимать десятки минут.
Делаем такую замену, дабы вычистить следы предыдущих замен. Не забываем проделать как с Классами, так и со Стилями (class="unikalnijtxt" и style ="unikalnijtxt").
Ну вот в принципе и всё.
Останется только удалить мусор из DIVов, Затем пустые <div></div>, <p></p>,
Пустые строки, лишьние <br>, и всё.
Если у вас такая ситуация, что вам нужно сохранить форматирование текста (Жирный, курсив), то не нужно использовать программу NVU. Но тогда вы на порядок увеличите себе количество замен в Dreamweaver. А скорее всего вообще запутаетесь, и ничего не получится.
Рассчитывать на другие чудо способы по пересохранению ВОРДа в правильный ХТМЛ я бы не стал. По крайней мере, на данный, момент я не нашел такой программы.