langchain с локальным медленным выводом llama2

Я использую Langchain с llama-2-13B . Я установил llama2 на машине AWS с 240 ГБ ОЗУ и 4 графическими процессорами Tesla V100 по 16 ГБ . Чтобы сделать вывод, требуется около 20 секунд. Я хочу сделать это быстрее, примерно за 8-10 секунд, чтобы сделать это в реальном времени. И результат очень плохой. Если я задам вопрос: «Привет, как дела?» Он создаст абзац из 500 слов. Как я могу улучшить выходные результаты? В настоящее время я использую эту конфигурацию:

      LlamaCpp(model_path= path,
                temperature=0.7,
                max_tokens=800,
                top_p=0.1,
                top_k=40,
                n_threads=4,
                callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]),
                verbose=True,
                n_ctx=2000,
                n_gpu_layers=80,
                n_batch=2048)

0 ответов

Другие вопросы по тегам