Формат входного набора данных для классификации текста по меткам Google AutoML Natural Language
Каким должен быть формат входного набора данных для классификации текста по меткам Google AutoML Natural Language? Я знаю, что для многоклассовой классификации мне нужен столбец текста и еще один столбец для меток. Столбец меток включает одну метку на строку.
У меня есть несколько меток для каждого текста, и я хочу сделать классификацию по нескольким меткам. Я попытался использовать один столбец для каждой метки и одну горячую кодировку, но я получил это сообщение об ошибке: поддерживается максимум 1000 меток. Найдено 9823 ярлыков.
2 ответа
Сначала это было очень странно, но позже мне удалось найти формат в документации, которая представляет собой CSV-файл, такой как:
text1, label1, label2
text2, label2
text3, label3, label2, label1
Синтаксический анализатор не понимает таблицу с пустыми ячейками, сохраненную в виде стандартного файла CSV, например:
text1, label1, label2,
text2, label2,,
text3, label3, label2, label1
Мне пришлось вручную удалить лишние запятые из файла CSV, сгенерированного Pandas.
Google AutoML обновил свой парсер. Следующий формат в порядке:
text1, label1, label2, label3,
text1, label1, label2, ,
text1, label1, label2, , ,
По крайней мере, это сработало для меня 27 января 2019 года
Один столбец на ярлык - это путь. Если у вас менее 1000 меток, вы, вероятно, допустили ошибку в своем CSV-файле, когда анализатор запутался и считает, что некоторые из токенов в тексте примера являются метками. Пожалуйста, убедитесь, что ваш текст правильно экранирован с кавычками.