Лучший формат разметки для перспективных больших текстовых блоков?
У меня есть несколько записей (=< 100), которые содержат большие фрагменты текста, которые требуют разметки (семантически: списки, заголовки, таблицы, ссылки, цитаты и т. Д.) Перед сохранением в формате файла многократного использования.
При хранении он может оставаться более или менее неизменным в течение как можно большего числа лет в будущем.
Он содержит некоторые не-ascii, поэтому требуется UTF-8. Я начал использовать HTML, затем подумал о Markdown... но хотел бы узнать, что люди считают наиболее перспективным форматом разметки для долгосрочного хранения? Контент изначально предназначен для (в основном статического) веб-сайта, но может использоваться как контент для других выходных данных.
Наконец, мнения о выборе хранилища для долгосрочного использования - база данных, отдельные документы...? Изменения в записях будут редкими и редактироваться только 1-3 людьми, и доступ для чтения должен со временем увеличиваться.
Обновить:
Наконец, я выбрал общие функции (например, для таблиц) между MultiMarkdown, PHP Markdown Extra и Kramdown в качестве текстового формата (Markdown опускает слишком много HTML-тегов), и я конвертирую полученные файлы в html с помощью Kramdown. Сейчас я испытываю редакторы iOS Markdown, которые могут обрабатывать расширенную Markdown и синхронизировать ее через Dropbox с моим рабочим столом / ноутбуком.
1 ответ
Любое хранилище, не предназначенное для долгосрочного архивирования, сломается.
Вопрос не столько в базе данных, сколько в файловой системе, а в том, как обеспечить отсутствие (молчаливого) повреждения данных и как переносить данные. Я не могу дать вам однозначных ответов, потому что это зависит от многих факторов (включая затраты), но вот несколько ресурсов:
- Построение лучшей долгосрочной системы архивного хранения, поговорим Миллер / Сторер в Библиотеке Конгресса
- "Цифровая дилемма", "Книга", нацелена на архивирование фильмов, но освещает некоторые вопросы долгосрочного архивирования.
- Проект Honeycomb, проект SUN для долгосрочного архивирования с открытым исходным кодом, но прекращен.
У меня нет реального ответа на вопрос о формате, но я думаю, что HTML + UTF-8 должен быть читаемым даже через десятилетия, но задокументируйте это.