Как извлечь все имена IUPAC, упомянутые в данных, доступных в Pubchem(NCBI), в текстовый файл?
Я хочу построить списки префиксов и суффиксов некоторой длины из всех имен IUPAC, упомянутых в базе данных Pubchem, чтобы я мог использовать их в своем проекте в качестве функции. Поэтому я хочу, чтобы все химические имена IUPAC были в текстовом файле или в какой-то формат, где я могу извлечь эти списки.
Thanks.
2 ответа
Сайт pubchem предлагает вам скачать дамп своих данных по ftp. Почему бы не использовать это?
Кажется, вам нужно что-то вроде этого списка видов Nist
Вы можете найти большинство из них также в Webbook, но мне не удалось найти ссылку для загрузки полного набора.
В нашей лаборатории мы получили Cd(?) С масс-спектральной базой данных, которая содержала базу данных (полная? - ну, он получил около 250 000 веществ) в виде текстового файла. Может быть, вы можете получить это через некоторых поставщиков.
Данные PubChem можно загрузить по ftp с сайта PubChem. Полное описание имеющихся данных можно получить здесь: https://pubchemdocs.ncbi.nlm.nih.gov/downloads
Данные, представляющие особый интерес для вопроса об именах IUPAC, можно загрузить из раздела "Compound Extras" на сайте ftp: ftp://ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/
Файл README-Extras в этом месте подробно описывает данные. Для названий IUPAC предоставляется следующая информация:
CID-IUPAC.gz:
Это список всех CID с их вычисленными именами IUPAC. Это сжатый текстовый файл с CID, вкладкой и IUPAC в каждой строке. Обратите внимание, что имена могут содержать символы UTF8.
Сегодняшняя загрузка (23 апреля 2020 г.) содержит 102586778 строк. Отрывок из информации показан ниже.
> head CID-IUPAC
1 3-acetyloxy-4-(trimethylazaniumyl)butanoate
2 (2-acetyloxy-3-carboxypropyl)-trimethylazanium
3 5,6-dihydroxycyclohexa-1,3-diene-1-carboxylic acid
4 1-aminopropan-2-ol
5 (3-amino-2-oxopropyl) dihydrogen phosphate
6 1-chloro-2,4-dinitrobenzene
7 9-ethylpurin-6-amine
8 2,3-dihydroxy-3-methylpentanoic acid
9 (2,3,4,5,6-pentahydroxycyclohexyl) dihydrogen phosphate
11 1,2-dichloroethane