Есть ли способ создать пробел между словами выходного текстового файла

Я использовал следующий код, чтобы преобразовать видео с YouTube в текст, но результат получился немного странным. Между словами нет пробела, и некоторые из них собраны вместе.

      #import libraries
from youtube_transcript_api import YouTubeTranscriptApi as yta
import re

#select any youtube video
vid_id = 'S4lTtvlFvyk'

#extract text
data = yta.get_transcript(vid_id)

#make your transcript more better
transcript=''
for value in data:
    for key,val in value.items():
        if key == 'text':
            transcript += val
l=transcript.splitlines()
final_tra = " ".join (l)


#write out transcript in the file
file=open(r"C:\Users\user.name\Desktop\python\DATA\Video files\trans.txt",'w')
file.write(final_tra)
file.close()

И выходной файл выглядит так:

проверьте меня инженеры Apple подошли к чертежной доске, чтобы создать лучшую маску Apple на самом деле разработала свою собственную маску для своих сотрудников в магазине, и у них на самом деле есть пара разных версий, но это своего рода стандарт, это то, что будет носить большинство сотрудников, это то, что больше всего сотрудники Apple сообщат, что в конце этого видео появятся новости о последнем случае с iphone12, так что оставайтесь на связи, Вилли Ду снял это, плюс некоторые зрители Лу позже покажут внизу, что связались с ним, так что кричите им анонимно это передо мной это официальная маска для лица это многоразовая маска для лица среднего размера для получения дополнительной информации посетите веб-сайтwelcomeforward.apple.com то, что для меня было безумием, находится на упаковке, которая все очень похожа на яблоко, как вы можете сказать, у нас есть то, что выглядит как серийный номер, определенно номер позиции, номер партии и дата производства, так же, как и все остальное. вне

Некоторые слова сливаются друг с другом и не оставляют места. Пожалуйста, предоставьте подходящее решение для того же.

1 ответ

Это может не дать вам именно тот выходной формат, который вы хотите, но он более краток и устраняет проблему слияния слов. Если вы сбросите (распечатаете) словарь, возвращенный get_transcript(), вы получите лучшее представление о том, что происходит.

      from youtube_transcript_api import YouTubeTranscriptApi as yta
import re

# select any youtube video
vid_id = 'S4lTtvlFvyk'

# make your transcript more better
transcript = []
for value in yta.get_transcript(vid_id):
    transcript.append(value['text'])

final_tra = ' '.join(transcript)

# write out transcript in the file
with open(r'C:\Users\user.name\Desktop\python\DATA\Video files\trans.txt', 'w') as outfile:
    outfile.write(final_tra)
Другие вопросы по тегам