Как точно настроить английскую модель преобразователя зрения на другие языки

Наша команда пытается использовать модель глубокого обучения (преобразователя зрения) под названием Deplot. Это модель преобразователя зрения, способная преобразовывать диаграммы в таблицы (тексты).

Архитектура модели не слишком сложна по сравнению с другими моделями трансформеров, но это тонко настроенная модель поверх другой модели трансформера Vision, которая точно настроена поверх другого трансформера Vision под названием Pix2Struct. Проблема в том, что нашей команде нужна модель для работы на других языках.

Достаточно ли будет точно настроить модель развертывания или мне следует также точно настроить и другие базовые модели? Кроме того, какими были бы другие варианты без точной настройки модели, если бы мы использовали модель на других языках, но с той же функцией?

Мы думали заменить список слов на другой язык и обучать его использованию, но пришли к выводу, что оно того не стоит. Любая помощь будет оценена по достоинству.

0 ответов

Другие вопросы по тегам