Python извлечение текста переменной длины из файла

У меня есть текстовый файл, который имеет такие данные, как

Tweet_id:"123456789", "text":"What an episode", "truncated":"false",Tweet_id:"12345678910", "text":My number is fascinating", "truncated":false

Я хочу извлечь только текстовое поле

Tweet_id:"123456789", **"text":"What an episode", "truncated"**:"false",Tweet_id:"12345678910", **"text":My number is fascinating", "truncated":false**

2 ответа

Решение

Я не уверен, какую именно часть Вы хотите извлечь, но я предлагаю Вам использовать регулярные выражения.

>>> import re
>>> string = 'Tweet_id:"123456789","text":"What an episode","truncated":"false,Tweet_id:"12345678910","text":My number is fascinating","truncated":false'
>>> re.findall('\"text\":(.*?),', string)
['"What an episode"', 'My number is fascinating"']

Это естественное применение регулярных выражений.

import re

text_re = re.compile("""
    "text":"            # This matches the part right before what you want.
    (?P<content>[^"]+)  # Matches the content
    "                   # Matches the close-quote after the content.
""", re.VERBOSE)

for match in text_re.finditer('Tweet_id:"123456789","text":"What an episode","truncated":"false,Tweet_id:"12345678910","text":"My number is fascinating","truncated":false"'):
    print match.group('content')

Это напечатает:

What an episode
My number is fascinating

Регулярное выражение может потребоваться усложнить в зависимости от деталей того, насколько последовательно отформатированы данные, как символы двойных кавычек в содержании твита обрабатываются в данных и т. Д.

Другие вопросы по тегам