Странные символы в документе Microsoft Word не экспортируются / не могут быть найдены

У меня есть документ, который был небрежно написан. Это словарь, который содержит кириллицу. Большая часть словаря является управляемой, но я застрял в одной вещи, с которой мне нужна помощь. В словах есть буквы с акцентом, и они в основном правильно отформатированы как буквы с акцентом в юникоде (образуя, таким образом, одну букву). Однако есть несколько очень своеобразных букв, которые похожи, например, на: a;´ (где "a" - любая произвольная буква кириллицы). Вы ожидаете, что на его месте. Однако само по себе это не будет проблемой, если только эту вещь можно будет экспортировать, скажем, HTML и манипулировать в текстовом редакторе. Проблема в том, что Word рассматривает эту "вещь" как один символ / сущность и

  • при экспорте ПОЛНОСТЬЮ опускается
  • при копировании он может быть вставлен только в Блокнот (который переводит его в три отдельных символа), а при вставке в WordPad он просто не появится вообще.
  • когда поиск выполняется в Word, он не находит букву, ни реальный символ, ни точно скопированную / вставленную комбинацию.
  • письмо исчезнет при открытии документа в любом другом программном обеспечении, таком как Libre Office

На данный момент я пытаюсь:

  • понять, что это за комбинация
  • запустить операцию поиска / замены, чтобы найти и отсеять все эти ошибки

Вот пример файла Word.

Вот скриншот рассматриваемого слова / буквы:

который при правильном наборе должен выглядеть какскре́пка".

2 ответа

Решение

"Символ" выглядит как поле Word типа "eq" (уравнение). Вот поле с переключенными кодами полей:

Если это большой документ, вы можете попытаться создать подпрограмму VBA, которая удаляет поля и заменяет их соответствующими символами.

Предполагая, что анализ @Anonimista является правильным, как я думаю, вы могли бы исправить файл, выполнив некоторые операции поиска и замены в Word, заменив, например, ^19eq \o(е;´)^21 на е́ (последнее - буква кириллицы). е с последующим сочетанием острого акцента U+0301). Это скучно, потому что вам придется делать это для каждого гласного отдельно (и для прописных гласных тоже). Но я не могу найти способ использовать подстановочные знаки в этом контексте; коды ^ 19 и ^ 21 для начала и конца полевой работы, только когда подстановочные знаки не включены.

Другие вопросы по тегам