Как сказать Googletrans игнорировать определенные части?
Я хотел бы использовать googletrans
использовать API Google Translate. Тем не менее, есть строки, в которых есть имена переменных:
User "%(first_name)s %(last_name)s (%(email)s)" has been deleted.
Если я использую это через Googletrans, я получаю
from googletrans import Translator
translator = Translator()
translator.translate(u'User "%(first_name)s %(last_name)s (%(email)s)" has been assigned.', src='en', dest='fr').text
Я получаю следующее:
L'utilisateur "% (first_name) s% (last_name) s (% (email) s)" a été affecté.
Тем не менее, "%(first_name) s% (last_name)s (%(email)s)" содержит несколько введенных строк. Это можно обойти? Я уже пробовал:
u'User "<span class="notranslate">%(first_name)s %(last_name)s (%(email)s)</span>" has been assigned.'
2 ответа
Решение
Кажется, Googletrans уходит, например, __1__
нетронутым. Таким образом, вы можете заменить %(first_name)s
с __0__
, %(last_name)s
с __1__
и т. д. перед переводом, а затем восстановите переменные. Вот код для этого:
from googletrans import Translator
import re
translator = Translator()
txtorig = u'User "%(first_name)s %(last_name)s (%(email)s)" has been assigned.'
# temporarily replace variables of format "%(example_name)s" with "__n__" to
# protect them during translate()
VAR, REPL = re.compile(r'%\(\w+\)s'), re.compile(r'__(\d+)__')
varlist = []
def replace(matchobj):
varlist.append(matchobj.group())
return "__%d__" %(len(varlist)-1)
def restore(matchobj):
return varlist[int(matchobj.group(1))]
txtorig = VAR.sub(replace, txtorig)
txttrans = translator.translate(txtorig, src='en', dest='fr').text
txttrans = REPL.sub(restore, txttrans)
print(txttrans)
Вот результат:
L'utilisateur "%(first_name)s %(last_name)s (%(email)s)" a été attribué.
На самом деле вам нужен следующий формат:
(3 '_' before) (string) (2 '_' after)
Like: ___%s__