Django: проверить тип загружаемого файла
У меня есть приложение, которое позволяет людям загружать файлы, представленные в виде UploadedFiles
, Однако я хочу убедиться, что пользователи загружают только XML-файлы. Я знаю, что могу сделать это, используя magic
, но я не знаю, где поставить этот чек - я не могу поставить его в clean
функция, так как файл еще не загружен, когда clean
бежит, насколько я могу судить.
Вот UploadedFile
модель:
class UploadedFile(models.Model):
"""This represents a file that has been uploaded to the server."""
STATE_UPLOADED = 0
STATE_ANNOTATED = 1
STATE_PROCESSING = 2
STATE_PROCESSED = 4
STATES = (
(STATE_UPLOADED, "Uploaded"),
(STATE_ANNOTATED, "Annotated"),
(STATE_PROCESSING, "Processing"),
(STATE_PROCESSED, "Processed"),
)
status = models.SmallIntegerField(choices=STATES,
default=0, blank=True, null=True)
file = models.FileField(upload_to=settings.XML_ROOT)
project = models.ForeignKey(Project)
def __unicode__(self):
return self.file.name
def name(self):
return os.path.basename(self.file.name)
def save(self, *args, **kwargs):
if not self.status:
self.status = self.STATE_UPLOADED
super(UploadedFile, self).save(*args, **kwargs)
def delete(self, *args, **kwargs):
os.remove(self.file.path)
self.file.delete(False)
super(UploadedFile, self).delete(*args, **kwargs)
def get_absolute_url(self):
return u'/upload/projects/%d' % self.id
def clean(self):
if not "XML" in magic.from_file(self.file.url):
raise ValidationError(u'Not an xml file.')
class UploadedFileForm(forms.ModelForm):
class Meta:
model = UploadedFile
exclude = ('project',)
4 ответа
Для потомков: решение заключается в использовании read
метод и передать это magic.from_buffer
,
class UploadedFileForm(ModelForm):
def clean_file(self):
file = self.cleaned_data.get("file", False)
filetype = magic.from_buffer(file.read())
if not "XML" in filetype:
raise ValidationError("File is not XML.")
return file
class Meta:
model = models.UploadedFile
exclude = ('project',)
Проверка файлов - это обычная проблема, поэтому я хотел бы использовать валидаторы:
from django.utils.deconstruct import deconstructible
from django.template.defaultfilters import filesizeformat
import magic
@deconstructible
class FileValidator(object):
error_messages = {
'max_size': ("Ensure this file size is not greater than %(max_size)s."
" Your file size is %(size)s."),
'min_size': ("Ensure this file size is not less than %(min_size)s. "
"Your file size is %(size)s."),
'content_type': "Files of type %(content_type)s are not supported.",
}
def __init__(self, max_size=None, min_size=None, content_types=()):
self.max_size = max_size
self.min_size = min_size
self.content_types = content_types
def __call__(self, data):
if self.max_size is not None and data.size > self.max_size:
params = {
'max_size': filesizeformat(self.max_size),
'size': filesizeformat(data.size),
}
raise ValidationError(self.error_messages['max_size'],
'max_size', params)
if self.min_size is not None and data.size < self.min_size:
params = {
'min_size': filesizeformat(self.mix_size),
'size': filesizeformat(data.size)
}
raise ValidationError(self.error_messages['min_size'],
'min_size', params)
if self.content_types:
content_type = magic.from_buffer(data.read(), mime=True)
if content_type not in self.content_types:
params = { 'content_type': content_type }
raise ValidationError(self.error_messages['content_type'],
'content_type', params)
def __eq__(self, other):
return isinstance(other, FileValidator)
Тогда вы можете использовать FileValidator
в вашем model.FileField
или же forms.FileField
следующее:
validate_file = FileValidator(max_size=1024 * 100,
content_types=('application/xml',))
file = models.FileField(upload_to=settings.XML_ROOT,
validators=[validate_file])
Начиная с django 1.11, вы также можете использовать FileExtensionValidator.
from django.core.validators import FileExtensionValidator
class UploadedFile(models.Model):
file = models.FileField(upload_to=settings.XML_ROOT,
validators=[FileExtensionValidator(allowed_extensions=['xml'])])
Обратите внимание, что это должно использоваться в FileField и не будет работать в CharField (например), так как валидатор проверяет значение value.name.
ссылка: https://docs.djangoproject.com/en/dev/ref/validators/
Я думаю, что вы хотите сделать, это очистить загруженный файл в Django Form.clean_your_field_name_here()
методы - к тому времени данные будут доступны в вашей системе, если они были отправлены как обычный запрос HTTP POST.
Также, если вы считаете это неэффективным, изучите варианты различных бэкэндов загрузки файлов Django и способы потоковой обработки.
Если вам необходимо учитывать безопасность системы при загрузке
Убедитесь, что загруженный файл имеет правильное расширение
Убедитесь, что mimetype соответствует расширению файла
В случае, если вы беспокоитесь о загрузке файлов эксплойтов пользователем (для атаки на ваш сайт)
Переписать все содержимое файла при сохранении, чтобы избавиться от возможной дополнительной (эксплойтной) полезной нагрузки (поэтому вы не можете встроить HTML в XML, который браузер будет интерпретировать как HTML-файл исходного сайта при загрузке)
Убедитесь, что вы используете заголовок Content-Disposition при загрузке
Еще немного информации здесь: http://opensourcehacker.com/2013/07/31/secure-user-uploads-and-exploiting-served-user-content/
Ниже мой пример того, как я очищаю загруженные изображения:
class Example(models.Model):
image = models.ImageField(upload_to=filename_gen("participant-images/"), blank=True, null=True)
class Example(forms.ModelForm):
def clean_image(self):
""" Clean the uploaded image attachemnt.
"""
image = self.cleaned_data.get('image', False)
utils.ensure_safe_user_image(image)
return image
def ensure_safe_user_image(image):
""" Perform various checks to sanitize user uploaded image data.
Checks that image was valid header, then
:param: InMemoryUploadedFile instance (Django form field value)
:raise: ValidationError in the case the image content has issues
"""
if not image:
return
assert isinstance(image, InMemoryUploadedFile), "Image rewrite has been only tested on in-memory upload backend"
# Make sure the image is not too big, so that PIL trashes the server
if image:
if image._size > 4*1024*1024:
raise ValidationError("Image file too large - the limit is 4 megabytes")
# Then do header peak what the image claims
image.file.seek(0)
mime = magic.from_buffer(image.file.getvalue(), mime=True)
if mime not in ("image/png", "image/jpeg"):
raise ValidationError("Image is not valid. Please upload a JPEG or PNG image.")
doc_type = mime.split("/")[-1].upper()
# Read data from cStringIO instance
image.file.seek(0)
pil_image = Image.open(image.file)
# Rewrite the image contents in the memory
# (bails out with exception on bad data)
buf = StringIO()
pil_image.thumbnail((2048, 2048), Image.ANTIALIAS)
pil_image.save(buf, doc_type)
image.file = buf
# Make sure the image has valid extension (can't upload .htm image)
extension = unicode(doc_type.lower())
if not image.name.endswith(u".%s" % extension):
image.name = image.name + u"." + extension
Недавно я нашел интересный пакет, который может выполнять проверку загружаемых файлов. Вы можете увидеть пакет здесь. пакетный подход аналогичен sultan answer, поэтому мы можем просто реализовать его прямо сейчас.
from upload_validator import FileTypeValidator
validator = FileTypeValidator(
allowed_types=['application/msword'],
allowed_extensions=['.doc', '.docx']
)
file_resource = open('sample.doc')
# ValidationError will be raised in case of invalid type or extension
validator(file_resource)