Удалить MS Word "HTML" с помощью PHP
Возможный дубликат:
Какой лучший бесплатный способ очистить Word HTML?
PHP для очистки вставил ввод Microsoft
Я разрешаю клиентам вводить заметки в редакторе форматированного текста, и только недавно он обновился до ckEditor 3x, который по умолчанию удаляет классы, стили и комментарии MS word (когда пользователи вставляют в объект редактора). Итак, двигаясь вперед, я готов.
Недавно мне нужно было очистить заметки за 5 лет, в некоторые из которых встроен HTML-код, созданный MS Word. Мне нужно пройтись по этому тексту и очистить его.
Мне не нужно удалять все теги span, только те, которые определены как написанные Microsoft.
Я пытался использовать HTMLCleaner, но он не удаляет сгенерированный MS HTML. http://word2cleanhtml.com/ делает именно то, что я хочу, однако разработчики в настоящее время не предлагают API для публичного использования (по состоянию на 9 июля 2012 г.).
Я искал такой класс в течение последних нескольких недель, и мне не очень повезло. Кто-нибудь из вас нашел полезный класс, которым вы хотели бы поделиться?