Как читать таблицы в pdf, когда в таблице есть разрывы строк в Python tabula-py?
Я пытался использовать пакет Python tabula-py для чтения таблицы в pdf. Кажется, что разрывы строк в ячейках таблицы pdf разделяют содержимое исходной ячейки на несколько ячеек.
Я пытался найти все виды пакетов Python, чтобы решить эту проблему. Похоже, что tabula-py - самый устойчивый пакет для преобразования pdf таблицы в данные pandas. Однако, если эта проблема не может быть решена, я должен обратиться к онлайн-сервису, который обеспечил бы идеальный вывод для меня.
from tabula import read_pdf
df=read_pdf("C:/Users/Desktop/test.pdf", pages='all')
Я ожидал, что таблица PDF может быть преобразована правильно с этим.
1 ответ
В Tabula больше нет опции "электронная таблица". Вместо этого используйте параметр "решетка", чтобы избежать разделения разрывов строк на новые строки. Код вроде этого:
import tabula
# Read pdf into DataFrame
df = tabula.read_pdf("FDA EPC Text Phrases (updated March 2018.pdf", pages='all',
lattice=True)
print(df)
Вы можете использовать опцию "электронная таблица" со значением "Истина", чтобы пропустить несколько строк значения NAN, вызванных разрывами строк.
import tabula
# Read pdf into DataFrame
df = tabula.read_pdf("FDA EPC Text Phrases (updated March 2018.pdf", pages='all', spreadsheet=True)
print(df)
#print(df['Active Moiety Name'])
#print(df['FDA Established Pharmacologic Class\r(EPC) Text Phrase\rPLR regulations require that the following\rstatement is included in the Highlights\rIndications and Usage heading if a drug is a\rmember of an EPC [see 21 CFR\r201.57(a)(6)]: “(Drug) is a (FDA EPC Text\rPhrase) indicated for [indication(s)].” For\reach listed active moiety, the associated\rFDA EPC text phrase is included in this\rdocument. For more information about how\rFDA determines the EPC Text Phrase, see\rthe 2009 "Determining EPC for Use in the\rHighlights" guidance and 2013 "Determining\rEPC for Use in the Highlights" MAPP\r7400.13.'])
Выход:
1758 ziconotide N-type calcium channel antagonist
1759 zidovudine HIV nucleoside analog reverse transcriptase in...
1760 zileuton 5-lipoxygenase inhibitor
1761 zinc cation copper absorption inhibitor
1762 ziprasidone atypical antipsychotic
1763 zoledronic acid bisphosphonate
1764 zoledronic acid anhydrous bisphosphonate
1765 zolmitriptan serotonin 5-HT1B/1D receptor agonist (triptan)
1766 zolmitriptan serotonin 5-HT1B/1D receptor agonist (triptan)
1767 zolpidem gamma-aminobutyric acid (GABA) A agonist
1768 zonisamide antiepileptic drug (AED)