Лучший способ получить дружественный к базе данных список больницы по делам ветеранов
Я искренне извиняюсь, если это не тот форум, на котором можно это обсуждать, но я не был уверен, куда идти или какой будет лучший вариант.
По сути, я пытаюсь найти в базе данных дружественный список больниц по делам ветеранов. Самая близкая вещь, которую я смог найти, это www.va.gov/ofcadmin/docs/CATB.pdf, так как она содержит всю информацию, которую я ищу:
- Область, край
- Адрес
- Город в отдельной колонке
- Почтовый индекс в отдельной колонке
- государственный
- Facility # (также известный как StationID)
- VISN
- Условное обозначение
Я пытался экспортировать этот PDF в CSV, но это полный кошмар, чтобы начать работать. Поэтому мне было любопытно, есть ли у кого-нибудь идеи или идеи о том, как я могу выполнить эту задачу.
2 ответа
Во-первых, вот CSV-файл, содержащий данные, найденные в CATB.pdf. Самая первая строка содержит заголовки столбцов, а остальная часть файла содержит содержимое.
http://tmp.alexloney.com/CATB.csv
Теперь для более подробного объяснения... Я взял PDF-файл, на который вы указали ссылку, преобразовал его в HTML-документ с помощью Adobe Acrobat, а затем использовал много регулярных выражений для анализа файла и его очистки. Как только файл был достаточно очищен, я смог написать программу для анализа оставшейся части файла, получения состояния и региона и выкладывания их в красиво отформатированный файл CSV.
Надеюсь, что это поможет вам!
Я считаю, что PDFILL имеет опцию, которая будет конвертировать PDF-файл в Excell. Попав в Excell, у вас не должно возникнуть проблем при конвертации в файл CSV.