Как извлечь все имена IUPAC, упомянутые в данных, доступных в Pubchem(NCBI), в текстовый файл?

Я хочу построить списки префиксов и суффиксов некоторой длины из всех имен IUPAC, упомянутых в базе данных Pubchem, чтобы я мог использовать их в своем проекте в качестве функции. Поэтому я хочу, чтобы все химические имена IUPAC были в текстовом файле или в какой-то формат, где я могу извлечь эти списки.

                         Thanks. 

2 ответа

Сайт pubchem предлагает вам скачать дамп своих данных по ftp. Почему бы не использовать это?

Кажется, вам нужно что-то вроде этого списка видов Nist

Вы можете найти большинство из них также в Webbook, но мне не удалось найти ссылку для загрузки полного набора.

В нашей лаборатории мы получили Cd(?) С масс-спектральной базой данных, которая содержала базу данных (полная? - ну, он получил около 250 000 веществ) в виде текстового файла. Может быть, вы можете получить это через некоторых поставщиков.

Данные PubChem можно загрузить по ftp с сайта PubChem. Полное описание имеющихся данных можно получить здесь: https://pubchemdocs.ncbi.nlm.nih.gov/downloads

Данные, представляющие особый интерес для вопроса об именах IUPAC, можно загрузить из раздела "Compound Extras" на сайте ftp: ftp://ftp.ncbi.nlm.nih.gov/pubchem/Compound/Extras/

Файл README-Extras в этом месте подробно описывает данные. Для названий IUPAC предоставляется следующая информация:

CID-IUPAC.gz:

Это список всех CID с их вычисленными именами IUPAC. Это сжатый текстовый файл с CID, вкладкой и IUPAC в каждой строке. Обратите внимание, что имена могут содержать символы UTF8.

Сегодняшняя загрузка (23 апреля 2020 г.) содержит 102586778 строк. Отрывок из информации показан ниже.

> head CID-IUPAC
1       3-acetyloxy-4-(trimethylazaniumyl)butanoate
2       (2-acetyloxy-3-carboxypropyl)-trimethylazanium
3       5,6-dihydroxycyclohexa-1,3-diene-1-carboxylic acid
4       1-aminopropan-2-ol
5       (3-amino-2-oxopropyl) dihydrogen phosphate
6       1-chloro-2,4-dinitrobenzene
7       9-ethylpurin-6-amine
8       2,3-dihydroxy-3-methylpentanoic acid
9       (2,3,4,5,6-pentahydroxycyclohexyl) dihydrogen phosphate
11      1,2-dichloroethane
Другие вопросы по тегам