Метка:- XMLContent De-duplication
Вопрос 1---> В настоящее время я работаю над проектом, в котором мы переводим английский контент на другие 17 языков. Чтобы снизить стоимость перевода, в настоящее время мы используем хэш-код MD5, и на основе результатов мы решаем, является ли тема новой (основной) или переведенной ранее (устаревшей). Но логика настолько сложна, и мы хотим уменьшить сложность на некотором уровне. Также в настоящее время мы используем систему управления контентом в качестве Filenet и она слишком старая..:) В основном мне нужно лучшее предложение для дедупликации контента, кроме хеширования MD5
Примечание:- Тема означает XML-файл с изображениями, который отображается через XSLT и не является стандартом DITA.
Вопрос 2--->
Что является лучшей альтернативой для отображения нестандартного XML-файла или нет стандартного XML-файла DITA в пользовательском интерфейсе, такого как HTMl или PDF?
Заранее спасибо... Жду лучших предложений.
1 ответ
Вопрос 1
Я рекомендую не полагаться на хэши или метки времени, но это зависит от вашей среды. Если вы реорганизуете переменные, изменяете отступы, добавляете / удаляете комментарии и т. Д., Что не меняет содержимое и не должно запускать процесс перевода, вы можете полагаться на метаданные для запуска полуавтоматического процесса. Далее вы можете использовать механизм сравнения, чтобы сравнить текущую версию документа с более ранней.
вопрос 2
В качестве первого вопроса, на этот вопрос трудно ответить, не зная и вашего окружения. Вероятно, разумнее сначала конвертировать ваши файлы в DITA или Markdown, а затем использовать DITA-OT или процессор Markdown для дальнейшего преобразования.