Новый релиз RefSeq от NCBI совместим с Bio.Entrez.Parser?

Я новичок в Python и особенно в Biopython. Я пытаюсь взять некоторую информацию из файла XML с Entrez.efetch и затем прочитайте это. На прошлой неделе этот скрипт работал хорошо:

handle = Entrez.efetch(db="Protein", id="YP_008872780.1", retmode="xml")
records = Entrez.read(handle)

Но сейчас я получаю сообщение об ошибке:

> Bio.Entrez.Parser.ValidationError: Failed to find tag 'GBSeq_xrefs' in
    the DTD. To skip all tags that are not represented in the DTD, please
    call Bio.Entrez.read or Bio.Entrez.parse with validate=False.

Итак, я запускаю это:

records = Entrez.read(handle, validate=False)

Но я все еще получаю сообщение об ошибке:

TypeError: 'str' object does not support item assignment

После некоторых исследований я понял, что NCBI сделал новые изменения, касающиеся RefSeq который создает новые теги в XML-файле (GenPept)

Нужно ли что-то менять в DTD для поддержки этих новых тегов?

1 ответ

Решение

Похоже, что мой файл DTD устарел.
Новая версия может быть найдена здесь или здесь.

Другие вопросы по тегам