Как использовать Google распознавания речи API в Python?

Переполнение стека, возможно, не лучшее место, чтобы задать этот вопрос, но мне нужна помощь. У меня есть mp3-файл, и я хочу использовать распознавание речи Google, чтобы получить текст из этого файла. Будут оценены любые идеи, где я могу найти документацию или примеры.

1 ответ

Решение

Взгляните на Google Cloud Speech API, который позволяет разработчикам конвертировать аудио в текст [...] API распознает более 80 языков и вариантов [...]. Вы можете создать бесплатную учетную запись, чтобы получить ограниченный объем запросов API.

КАК:

Сначала вам нужно установить модуль gcloud python и модуль google-api-python-client с помощью:

pip install --upgrade gcloud
pip install --upgrade google-api-python-client

Затем в консоли Cloud Platform перейдите на страницу Projects и выберите или создайте новый проект. После того, как вам нужно включить биллинг для вашего проекта, включите Cloud Speech API.

После включения Google Cloud Speech API нажмите кнопку "Перейти к учетным данным", чтобы настроить учетные данные Cloud Speech API.

См. Настройка учетной записи службы для получения информации о том, как авторизоваться в службе Cloud Speech API из вашего кода.

Вы должны получить и файл ключа служебной учетной записи (в формате JSON), и переменную среды GOOGLE_APPLICATION_CREDENTIALS, которая позволит вам проходить аутентификацию в Speech API

После того, как все будет сделано, загрузите аудиофайл из Google, а также файл https://cloud.google.com/speech/docs/samples/speech-discovery_google_rest_v1.json из Google.

Измените предыдущий загруженный файл JSON, чтобы задать свой ключ учетных данных, затем убедитесь, что для переменной среды GOOGLE_APPLICATION_CREDENTIALS задан полный путь к файлу.json с помощью:

export GOOGLE_APPLICATION_CREDENTIALS=/path/to/service_account_file.json

также

Убедитесь, что для переменной среды GCLOUD_PROJECT задан идентификатор вашего проекта Google Cloud с помощью:

export GCLOUD_PROJECT=your-project-id

предполагая, что все сделано, вы можете создать файл tutorial.py, который содержит:

import argparse
import base64
import json

from googleapiclient import discovery
import httplib2
from oauth2client.client import GoogleCredentials


DISCOVERY_URL = ('https://{api}.googleapis.com/$discovery/rest?'
                 'version={apiVersion}')


def get_speech_service():
    credentials = GoogleCredentials.get_application_default().create_scoped(
        ['https://www.googleapis.com/auth/cloud-platform'])
    http = httplib2.Http()
    credentials.authorize(http)

    return discovery.build(
        'speech', 'v1beta1', http=http, discoveryServiceUrl=DISCOVERY_URL)


def main(speech_file):
    """Transcribe the given audio file.

    Args:
        speech_file: the name of the audio file.
    """
    with open(speech_file, 'rb') as speech:
        speech_content = base64.b64encode(speech.read())

    service = get_speech_service()
    service_request = service.speech().syncrecognize(
        body={
            'config': {
                'encoding': 'LINEAR16',  # raw 16-bit signed LE samples
                'sampleRate': 16000,  # 16 khz
                'languageCode': 'en-US',  # a BCP-47 language tag
            },
            'audio': {
                'content': speech_content.decode('UTF-8')
                }
            })
    response = service_request.execute()
    print(json.dumps(response))

if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument(
        'speech_file', help='Full path of audio file to be recognized')
    args = parser.parse_args()
    main(args.speech_file)

Затем запустите:

python tutorial.py audio.raw
Другие вопросы по тегам