Метка:- XMLContent De-duplication

Вопрос 1---> В настоящее время я работаю над проектом, в котором мы переводим английский контент на другие 17 языков. Чтобы снизить стоимость перевода, в настоящее время мы используем хэш-код MD5, и на основе результатов мы решаем, является ли тема новой (основной) или переведенной ранее (устаревшей). Но логика настолько сложна, и мы хотим уменьшить сложность на некотором уровне. Также в настоящее время мы используем систему управления контентом в качестве Filenet и она слишком старая..:) В основном мне нужно лучшее предложение для дедупликации контента, кроме хеширования MD5

Примечание:- Тема означает XML-файл с изображениями, который отображается через XSLT и не является стандартом DITA.

Вопрос 2--->

Что является лучшей альтернативой для отображения нестандартного XML-файла или нет стандартного XML-файла DITA в пользовательском интерфейсе, такого как HTMl или PDF?

Заранее спасибо... Жду лучших предложений.

1 ответ

Вопрос 1

Я рекомендую не полагаться на хэши или метки времени, но это зависит от вашей среды. Если вы реорганизуете переменные, изменяете отступы, добавляете / удаляете комментарии и т. Д., Что не меняет содержимое и не должно запускать процесс перевода, вы можете полагаться на метаданные для запуска полуавтоматического процесса. Далее вы можете использовать механизм сравнения, чтобы сравнить текущую версию документа с более ранней.

вопрос 2

В качестве первого вопроса, на этот вопрос трудно ответить, не зная и вашего окружения. Вероятно, разумнее сначала конвертировать ваши файлы в DITA или Markdown, а затем использовать DITA-OT или процессор Markdown для дальнейшего преобразования.

Другие вопросы по тегам