Как получить чистую стенограмму YouTube
Я пытаюсь получить данные видео субтитров, для этого я использую downsub.
Я никак не мог получить чистые субтитры без HTML-тегов и временных меток, не перенося их в блокнот и не выполнив процедуру замены в зависимости от ситуации.
Это громоздко, и я хочу автоматизировать процесс очистки с помощью Python.
https://colab.research.google.com/drive/1bbgbjbGF9bjzz3FISMfycSW4iHCj3pxk
Я ищу действительно очень простое решение, которое каждый может понять только с базовыми знаниями Python. Я открыт для использования API, если это необходимо, но если это займет много времени, ручная очистка все равно займет всего несколько минут, если это будет сделано быстро. Автоматизация была бы хороша, хотя; уменьшит головную боль Учитывая это, пожалуйста, предложите хорошее и приятное решение.
1 ответ
Внесены некоторые изменения в замену, но для этого следует сделать следующее:
import requests
down_url = "https://downsub.com/index.php?title=5+Am+Club+by+Robin+Sharma+%7C%7C+Review%2C+Takeaways+and+Discussion&url=ujcNaH9TaDy8U56iM_1ZReCKk1h83rjIvE7i146GYHUNIwZwKM02q9oUSieWkZ47Tw2OOJgFBvlU0he-sxkGIASxRnTcdMwE1QrZ3CAsyI5gLS6A0ovxFMmFJx5EAC5wtwexy0R1vzZfNdt6dBse3H-vOhq8xnqL-LdhSbiePZ5E_KEYrYuFzPvF2JpEARuCOA6XlqQQzV7iooSEObb9AejBkNj_uHhNnO0RVJ0E-pVAJjWLdjUnIdXGPkJUsd5Ceg5qeTVKjtBQhWyf6qCuwE_BAezDSDAF6DgLCFRnwc2Uc9onnorwYncvzIge1soln3FnkifpyHiPB3cK0h0f5yMUy-DJHervcQXQEHdUf-npkCzRgeba283yoN7orAovE0iaIihvFMectGYKT27eXLdrLdQQ3sUcWFqRB6SjZ8g"
data = requests.get(down_url).text
clean = ['<font color="#CCCCCC">',
'<font color="#E5E5E5">',
'<font color="#EEE">',
'</font>',
0,1,2,3,4,5,6,7,8,9,
'::, --> ::,',]
for s in clean:
data = data.replace(str(s), '')
data = data.replace('\n\n\n\n', '\n')
print(data)