Взвешенная погрешность — новая метрика для оценки качества валидации ответов в задаче вопросно-ответного поиска - page 1

ИНФОРМАТИКА И ВЫЧИСЛИТЕЛЬНАЯ
ТЕХНИКА
УДК 025.4.036+004.912
ВЗВЕШЕННАЯ ПОГРЕШНОСТЬ — НОВАЯ МЕТРИКА
ДЛЯ ОЦЕНКИ КАЧЕСТВА ВАЛИДАЦИИ ОТВЕТОВ
В ЗАДАЧЕ ВОПРОСНО-ОТВЕТНОГО ПОИСКА
А.А. Соловьев
МГТУ им. Н.Э. Баумана, Москва
e-mail:
Рассмотрена подзадача валидации ответов в задаче вопросно-ответного поис-
ка. Традиционными метриками качества на семинарах TAC-RTE и CLEF-AVE
являются аккуратность (accuracy) и
F
-мера. По результатам участия в семи-
наре РОМИП-2010 отмечено, что число ложных ответов-гипотез, которые
должен отклонить модуль валидации ответов, часто значительно превышает
число верных ответов. Предложена новая метрика — взвешенная погрешность,
которая чаще штрафует систему за ошибки первого рода (пользователю по-
казан неверный ответ — falsepositive), чем за ошибки второго рода (правиль-
ный ответ отвергнут и пользователю не показан — falsenegative). В отличие
от
F
-меры она также поощряет систему за верно отфильтрованный ответ
(truenegative).
Ключевые слова
:
информационный поиск, вопросно-ответный поиск, вопросно-
ответные системы, проверка ответов, валидация ответов, компьютерная лингви-
стика, обработка естественного языка.
WEIGHTED ERROR — NEW METRICS FOR ESTIMATING QUALITY
OF ANSWER VALIDATION IN THE PROBLEM
OF QUESTION-ANSWERING RETRIEVAL
A.A. Solovyev
Bauman Moscow State Technical University, Moscow
e-mail:
The answer validation subproblem is considered in a problem of question answering
retrieval. Traditional quality metrics at the TAC-RTE and CLEF-AVE seminars are
accuracy and F-measure. From results of participation in ROMIP-2010 seminar, it is
noted that a number of false answer-hypotheses that must be declined by the answer
validation module frequently exceeds substantially the true answer number. A novel
metrics—weighted error is proposed which penalizes the system for the first-kind
errors (false positive errors, when an incorrect answer is shown to the user) more
frequently than for the second-kind errors (false negative errors, when a correct
answer is rejected and not shown to the user). Unlike the F-measure, it also rewards
the system for the properly rejected (true negative) answer.
Keywords
:
information retrieval, question answering, answer validation, question-
answering systems, checking answer, answer validation, computational linguistics,
natural language processing.
Программные системы вопросно-ответного поиска, или просто
вопросно-ответные системы (
англ.
QuestionAnsweringSystems) – это
58 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2013. № 1
1 2,3,4,5,6,7
Powered by FlippingBook