Python One-Hot кодировать каждые 2 символа в тексте

Question

Python One-Hot кодировать каждые 2 символа в тексте

У меня есть собственный алфавит, так как словарь состоит из 2 букв, ключей и десятичных значений соответственно. Я в основном хочу кодировать каждые 2 символа в тексте, используя этот алфавит. Текст не может выходить за пределы заданного алфавита, поэтому его можно определить вручную. Вот что я сделал до сих пор.

values = {'00' : 0.0, '01': 1.0, '02':2.0, '03':3.0, '04':4.0, '05':5.0, '06':6.0, '07':7.0, '08':8.0, '09':9.0, '0a':10, '0b':11, '0c':12, '0d':13, '0e':14}

sample = '000a'
indexes = [values[ch:ch+2] for ch in range(0,len(sample),2)]

Выход должен был быть 0,010

Тем не менее, я получаю непредсказуемый тип: ошибка типа "кусочек" при запуске этого.

Есть ли другой способ перебирать каждые два элемента в тексте и заменять их значениями в словаре? Или какой оптимальный способ сделать это для текстовых файлов более 20G+?

2

python dictionary text slice one-hot-encoding

Источник

user3719201 09 июл '18 в 19:51

1 ответ

Решение

Другие вопросы по тегам python dictionary text slice one-hot-encoding

user10005302 09 июл '18 в 19:58 2018-07-09 19:58 · Accepted Answer · 2018-07-09 19:58

Это делает то, что вы описываете в примере:

values = {'00' : 0.0, '01': 1.0, '02':2.0, '03':3.0, '04':4.0, '05':5.0, '06':6.0, '07':7.0, '08':8.0, '09':9.0, '0a':10, '0b':11, '0c':12, '0d':13, '0e':14}

sample = '000a'
indexes = ''.join(str(values[sample[ch:ch+2]]) for ch in range(0,len(sample),2))

Я думаю, что вы пропустили это sample[:] за values ключи...

1

Источник

user10005302 09 июл '18 в 19:58