langchain с локальным медленным выводом llama2
Я использую Langchain с llama-2-13B . Я установил llama2 на машине AWS с 240 ГБ ОЗУ и 4 графическими процессорами Tesla V100 по 16 ГБ . Чтобы сделать вывод, требуется около 20 секунд. Я хочу сделать это быстрее, примерно за 8-10 секунд, чтобы сделать это в реальном времени. И результат очень плохой. Если я задам вопрос: «Привет, как дела?» Он создаст абзац из 500 слов. Как я могу улучшить выходные результаты? В настоящее время я использую эту конфигурацию:
LlamaCpp(model_path= path,
temperature=0.7,
max_tokens=800,
top_p=0.1,
top_k=40,
n_threads=4,
callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]),
verbose=True,
n_ctx=2000,
n_gpu_layers=80,
n_batch=2048)