Как экранировать специальные символы в CNTK Text Reader?
Для читателя, такого как читающий файл в формате CTF,
query = StreamDef(field='S0', shape=vocab_size, is_sparse=True),
intent = StreamDef(field='S1', shape=num_intents, is_sparse=True),
slot_labels = StreamDef(field='S2', shape=num_labels, is_sparse=True)
Как мне избежать специального символа, такого как "|" если это токен? Я получаю предупреждение о линии в середине, где сам токен ""
48155 | S0 196: 1 | # - | S2 0: 1 | # Нет
48155 |S0 18217:1 |# | |S2 0:1 |# Нет
48155 |S0 3152:1 |# Синди | S2 0: 1 | # Нет
Я могу удалить их при создании файла CFT, но мне было интересно, как мы можем справиться с этим. Спасибо
2 ответа
Канал может быть экранирован путем добавления к нему символа хеша: |# this is a CTF comment with an escaped pipe: '|#'
Вы также можете сопоставить каналы другому слову или символу, которые не отображаются в вашем корпусе. Я обычно заменяю трубы на.