Поиск цитат с регулярным выражением

Я ищу способ найти в текстовом файле цитаты, сделанные автором, а затем распечатать их. Мой сценарий до сих пор:

import re

    #searches end of string 
    print re.search('"$', 'i am searching for quotes"')

    #searches start of string 
    print re.search('^"' , '"i am searching for quotes"')

Что я хотел бы сделать

import re

## load text file
quotelist = open('A.txt','r').read()

## search for strings contained with quotation marks
re.search ("-", quotelist)

## Store in list or Dict
Dict = quotelist

## Print quotes 
print Dict

Я тоже пробовал

import re

buffer = open('bbc.txt','r').read()

quotes = re.findall(r'.*"[^"].*".*', buffer)
for quote in quotes:
  print quote

# Add quotes to list

 l = []
    for quote in quotes:
    print quote
    l.append(quote)

2 ответа

Разработайте регулярное выражение, которое соответствует всем ожидаемым символам, которые вы ожидаете увидеть внутри строки в кавычках. Тогда используйте метод python findall в re чтобы найти все вхождения матча.

import re

buffer = open('file.txt','r').read()

quotes = re.findall(r'"[^"]*"',buffer)
for quote in quotes:
  print quote

Поиск между "и" требует поиска в формате Юникод-регулярное выражение, например:

quotes = re.findall(ur'"[^\u201d]*\u201d',buffer)

И для документа, который использует "и" взаимозаменяемо для завершения цитаты

quotes = re.findall(ur'"[^"^\u201d]*["\u201d]', buffer)

Вам не нужны регулярные выражения для поиска статических строк. Вы должны использовать эту идиому Python для поиска строк:

>>> haystack = 'this is the string to search!'
>>> needle = '!'
>>> if needle in haystack:
       print 'Found', needle

Создать список достаточно просто -

>>> matches = []

Хранить спички тоже легко...

>>> matches.append('add this string to matches')

Этого должно быть достаточно, чтобы вы начали. Удачи!

Приложение для ответа на комментарий ниже...

l = []
for quote in matches:
    print quote
    l.append(quote)
Другие вопросы по тегам