Разбор первого вхождения слова, которому не предшествует пробел
настройка
Мне нужно найти первое вхождение слова в некотором файле.txt, которому не предшествует пробел. Вот возможные случаи:
-- * should succed
t1 = "hello\t999\nworld\t\900"
t2 = "world\t\900\nhello\t999\n"
t3 = "world world\t\900\nhello\t999\n"
-- * should fail
t4 = "world\t\900\nhello world\t999\n"
t5 = "hello world\t999\nworld\t\900"
t6 = "world hello\t999\nworld\t\900"
Прямо сейчас t6 успешно выполняется, даже если он должен потерпеть неудачу, потому что мой анализатор будет потреблять любой символ, пока не достигнет привет. Вот мой парсер:
Мое решение
import Control.Applicative
import Data.Attoparsec.Text.Lazy
import Data.Attoparsec.Combinator
import Data.Text hiding (foldr)
import qualified Data.Text.Lazy as L (Text, pack)
-- * should succed
t1 = L.pack "hello\t999\nworld\t\900"
t2 = L.pack "world\t\900\nhello\t999\n"
-- * should fail
t3 = L.pack "world\t\900\nhello world\t999\n"
t4 = L.pack "hello world\t999\nworld\t\900"
t5 = L.pack "world hello\t999\nworld\t\900"
p = occur "hello"
---- * discard all text until word `w` occurs, and find its only field `n`
occur :: String -> Parser (String, Int)
occur w = do
pUntil w
string . pack $ w
string "\t"
n <- natural
string "\n"
return (w, read n)
-- * Parse a natural number
natural :: Parser String
natural = many1' digit
-- * skip over all words in Text stream until the word we want
pUntil :: String -> Parser String
pUntil = manyTill anyChar . lookAhead . string . pack
1 ответ
Решение
Вот подход, чтобы рассмотреть:
{-# LANGUAGE OverloadedStrings #-}
import Control.Applicative
import Data.Attoparsec.Text.Lazy
import Data.Attoparsec.Combinator
import Data.Text hiding (foldr)
import qualified Data.Text.Lazy as L (Text, pack)
import Data.Monoid
natural = many1' digit
-- manyTill anyChar (try $ char c <* eof)
pair0 w = do
string (w <> "\t")
n <- natural
string "\n"
return n
pair1 w = do
manyTill anyChar (try $ string ("\n" <> w <> "\t"))
n <- natural
string "\n"
return n
pair w = pair0 w <|> pair1 w
t1 = "hello\t999\nworld\t\900"
t2 = "world\t\900\nhello\t999\n"
t3 = "world world\t\900\nhello\t999\n"
-- * should fail
t4 = "world\t\900\nhello world\t999\n"
t5 = "hello world\t999\nworld\t\900"
t6 = "world hello\t999\nworld\t\900"
test t = parseTest (pair "hello") (L.pack t)
main = do
test t1; test t2; test t3
test t4; test t5; test t6
Идея в том, что pair0
сопоставляет пару с заданным ключом в начале ввода и pair1
соответствует паре после новой строки.
Ключ является использование manyTill anyChar (try p)
который будет пропускать символы до парсера p
преуспевает.
(кстати - я узнал об этом использовании manyTill
а также try
прочитав ответ, написанный @Cactus.)