Почему файл.doc занимает больше места в памяти, чем файл.txt?

У меня есть и файл.doc, и файл.txt с только "1" в качестве содержимого. Но файл.doc занимает 10,9 КБ, а файл.txt занимает всего 1 байт.

2 ответа

Файл.txt содержит простые текстовые символы длиной 1 байт, файл.doc включает все метаданные документа Word, такие как стиль шрифта, размер, поля страницы и т. Д.

Самостоятельное исследование:

  1. Сохраните документ как файл ".docx".

  2. переименовывать foo.docx в foo.docx.zip (все файлы Microsoft "X-document" - это почтовые индексы).

  3. экстракт foo.docx.zip,

Просмотрите извлеченные файлы XML - большинство файлов, связанных с дополнительными ресурсами метаданных, которые включены в сохраненный документ Word.

.doc файл, по сути, просто старая двоичная версия .docx файл и содержит аналогичную информацию метаданных. Это можно просмотреть с помощью двоичного / шестнадцатеричного редактора.

(Существуют также структурные различия при сохранении самого контента.)

Текстовый файл содержит только буквальное содержимое - и ничего больше - поэтому он имеет такой же размер, что и содержимое с однобайтовой кодировкой.

Другие вопросы по тегам