Доступ к исходному коду из локального файла Python

Мне нужно получить доступ к исходному коду локально сохраненного файла, но мне нужно автоматизировать это, поскольку в одной папке несколько файлов. Я посмотрел на модуль проверки и модуль селена, но я все еще понимаю, что делать. После доступа к исходному коду мне нужно использовать bs4 для извлечения из него.

Я читал несколько постов здесь и в других местах со схожими проблемами, но дело в том, что мой файл не открывается в исходном коде (он написан на xml и до сих пор все должно быть в исходном коде, прежде чем вы сможете использовать эти модули), Если я открываю файл, он просто использует мой браузер, чтобы открыть обычную страницу, а затем я должен нажать просмотреть страницу источника.

Как я могу автоматизировать это так, чтобы он открывал страницу, переходил к исходному коду и сохранял его, чтобы я мог вставить его в суп для последующего анализа?

path_g_jurt = r'C:\Users\g\Desktop\t\SDU\jurt htmls\jurt\meta jurt'

file = r'C:\Users\g\Desktop\t\SDU\jurt htmls\jurt\meta jurt' + "/" + file

for file in path_g_jurt:
if file.endswith(".xhtml"):
with open(file, encoding = "utf-8") as mdata_jurt:

soup = BeautifulSoup(mdata_jurt)
main = file.find("jcid").get_text()
misc_links = []
for item in file.find_all("regelgeving"):
    misc = item.find("misc:link")
    misc_links.append(misc.get("misc:jcid"))

Любая помощь будет оценена.

0 ответов

Другие вопросы по тегам