Формат входного набора данных для классификации текста по меткам Google AutoML Natural Language

Каким должен быть формат входного набора данных для классификации текста по меткам Google AutoML Natural Language? Я знаю, что для многоклассовой классификации мне нужен столбец текста и еще один столбец для меток. Столбец меток включает одну метку на строку.

У меня есть несколько меток для каждого текста, и я хочу сделать классификацию по нескольким меткам. Я попытался использовать один столбец для каждой метки и одну горячую кодировку, но я получил это сообщение об ошибке: поддерживается максимум 1000 меток. Найдено 9823 ярлыков.

2 ответа

Сначала это было очень странно, но позже мне удалось найти формат в документации, которая представляет собой CSV-файл, такой как:

text1, label1, label2 text2, label2 text3, label3, label2, label1

Синтаксический анализатор не понимает таблицу с пустыми ячейками, сохраненную в виде стандартного файла CSV, например:

text1, label1, label2, text2, label2,, text3, label3, label2, label1

Мне пришлось вручную удалить лишние запятые из файла CSV, сгенерированного Pandas.

Google AutoML обновил свой парсер. Следующий формат в порядке:

text1, label1, label2, label3,
text1, label1, label2, ,
text1, label1, label2, , ,

По крайней мере, это сработало для меня 27 января 2019 года

Один столбец на ярлык - это путь. Если у вас менее 1000 меток, вы, вероятно, допустили ошибку в своем CSV-файле, когда анализатор запутался и считает, что некоторые из токенов в тексте примера являются метками. Пожалуйста, убедитесь, что ваш текст правильно экранирован с кавычками.

Другие вопросы по тегам