Лучший способ получить дружественный к базе данных список больницы по делам ветеранов

Я искренне извиняюсь, если это не тот форум, на котором можно это обсуждать, но я не был уверен, куда идти или какой будет лучший вариант.

По сути, я пытаюсь найти в базе данных дружественный список больниц по делам ветеранов. Самая близкая вещь, которую я смог найти, это www.va.gov/ofcadmin/docs/CATB.pdf, так как она содержит всю информацию, которую я ищу:

  • Область, край
  • Адрес
  • Город в отдельной колонке
  • Почтовый индекс в отдельной колонке
  • государственный
  • Facility # (также известный как StationID)
  • VISN
  • Условное обозначение

Я пытался экспортировать этот PDF в CSV, но это полный кошмар, чтобы начать работать. Поэтому мне было любопытно, есть ли у кого-нибудь идеи или идеи о том, как я могу выполнить эту задачу.

2 ответа

Решение

Во-первых, вот CSV-файл, содержащий данные, найденные в CATB.pdf. Самая первая строка содержит заголовки столбцов, а остальная часть файла содержит содержимое.

http://tmp.alexloney.com/CATB.csv

Теперь для более подробного объяснения... Я взял PDF-файл, на который вы указали ссылку, преобразовал его в HTML-документ с помощью Adobe Acrobat, а затем использовал много регулярных выражений для анализа файла и его очистки. Как только файл был достаточно очищен, я смог написать программу для анализа оставшейся части файла, получения состояния и региона и выкладывания их в красиво отформатированный файл CSV.

Надеюсь, что это поможет вам!

Я считаю, что PDFILL имеет опцию, которая будет конвертировать PDF-файл в Excell. Попав в Excell, у вас не должно возникнуть проблем при конвертации в файл CSV.

Другие вопросы по тегам