Как экранировать специальные символы в CNTK Text Reader?

Для читателя, такого как читающий файл в формате CTF,

     query         = StreamDef(field='S0', shape=vocab_size,  is_sparse=True),
     intent        = StreamDef(field='S1', shape=num_intents, is_sparse=True),  
     slot_labels   = StreamDef(field='S2', shape=num_labels,  is_sparse=True)

Как мне избежать специального символа, такого как "|" если это токен? Я получаю предупреждение о линии в середине, где сам токен ""

48155 | S0 196: 1 | # - | S2 0: 1 | # Нет

48155 |S0 18217:1 |# | |S2 0:1 |# Нет

48155 |S0 3152:1 |# Синди | S2 0: 1 | # Нет

Я могу удалить их при создании файла CFT, но мне было интересно, как мы можем справиться с этим. Спасибо

2 ответа

Канал может быть экранирован путем добавления к нему символа хеша: |# this is a CTF comment with an escaped pipe: '|#'

Вы также можете сопоставить каналы другому слову или символу, которые не отображаются в вашем корпусе. Я обычно заменяю трубы на.

Другие вопросы по тегам