Система обеспечения качества, основанная на знаниях, не дающая наиболее подходящий ответ
Я работаю над проектом, который в основном основан на системе ответов на вопросы. Моя система принимает запрос от пользователя, загружает соответствующие документы из Википедии, удаляет все HTML-теги и извлекает простой текст. После этого он разбивает документ на предложения, а затем формирует матрицу term-document(TD) (запрос также передается как предложение). Эта TD-матрица затем пересылается в алгоритм pLSA(вероятностный скрытый синтаксический анализ). Затем, наконец, вычисляется косинусное сходство между векторами документа (предложения) с вектором запроса. На основе сходства с вектором запроса наиболее релевантное предложение отображается в качестве ответа. (Стемминг также делается при формировании TD Matrix). Проблема в том, что он отображает результат, но не самый актуальный. Куда я иду не так? Правильна ли стратегия, которой я следую, или любой другой алгоритм, который может помочь? Ниже я показываю некоторые из Вопросов и их ответов, полученных моей системой:
What is photosynthesis?
ANSWER 1 : The stroma contains stacks (grana) of thylakoids, which are the site of photosynthesis
ANSWER 2 : Factors leaf is the primary site of photosynthesis in plants
ANSWER 3 : Samuel Ruben and Martin Kamen used radioactive isotopes to determine that the oxygen liberated in photosynthesis came from the water
ANSWER 4 : In plants, algae and cyanobacteria, photosynthesis releases oxygen
Другой вопрос
What is Artificial Intelligence?
ANSWER 1 : the problem of creating 'artificial intelligence' will substantially be solved"
ANSWER 2 : 37 The leading-edge definition of artificial intelligence research is changing over time
ANSWER 3 : Stories of these creatures and their fates discuss many of the same hopes, fears and ethical concerns that are presented by artificial intelligence
ANSWER 4 : History of artificial intelligence and Timeline of artificial intelligence Thinking machines and artificial beings appear in Greek myths , such as Talos of Crete , the bronze robot of Hephaestus , and Pygmalion's Galatea 13 Human likenesses believed to have intelligence were built in every major civilization
Другой вопрос
Who is a hacker?
ANSWER 1 : 19 Hackers (short stories) Helba from the
ANSWER 2 : 16 Rafael Núñez aka RaFa was a notorious most wanted hacker by the FBI since 2001
ANSWER 3 : Often, this type of 'white hat' hacker is called an ethical hacker
ANSWER 4 : Hackers also commonly use port scanners
еще один забег
What is biology?
ANSWER 1 : Molecular biology is the study of biology at a molecular level
ANSWER 2 : molecular biology studies the complex interactions of systems of biological molecules
ANSWER 3 : The similarities and differences between cell types are particularly relevant to molecular biology
ANSWER 4 : Contents History Foundations of modern biology 2
2 ответа
Я думаю, что будет трудно улучшить вашу систему, если вы будете придерживаться полного статистического подхода. С точки зрения статистики НЛП, вы действительно делаете правильные вещи. Теперь вы можете настроить некоторые параметры. Чтобы сделать это, вы должны построить учебный корпус, сообщив системе, какой ответ является правильным... и затем посмотреть, какое значение должен принимать параметр, чтобы дать вам этот ответ.
При этом я не думаю, что параметры точной настройки улучшат вашу точность более чем на 20% ~30%.
Если вы хотите пойти дальше, вам понадобится более семантический подход и символическое представление знаний. Проверьте, например, http://www.jfsowa.com/
Это хорошо изученная проблема, называемая "Ответ на вопрос" (QA). Я предоставил резюме о QA в другом ответе. В частности, все ваши примеры подпадают под категорию "вопросы определения", согласно TREC. Я предлагаю ознакомиться с некоторыми статьями, возникшими в результате запроса "вопросов об определении TREC" в Google или Google Scholar, чтобы найти идеи.