Взвешенная погрешность — новая метрика для оценки качества валидации ответов в задаче вопросно-ответного поиска - page 2

вид информационно-поисковых систем, способных обрабатывать вве-
денный пользователем вопрос на естественном языке и выдавать
осмысленный ответ. В отличие от задачи классического поиска по
ключевым словам, в которой результатом является перечень доку-
ментов, содержащих ответ на вопрос, в задаче вопросно-ответного
поиска — это краткий и лаконичный ответ, сформированный системой
в результате анализа разнообразных источников данных. Примером
такого источника может служить некоторая коллекция полнотексто-
вых документов (множество страниц глобальной сети Интернет), а
ответ составляется из фрагмента наиболее релевантного документа
коллекции.
Обзор существующих методов валидации ответов, описание раз-
рабатываемого метода параллельного обхода графов и формулировка
задачи экспериментального исследования этих методов были приве-
дены в работе [1]. В настоящей статье рассмотрены существующие
подходы к экспериментальной оценке качества вопросно-ответных си-
стем, в частности модуля валидации ответов. Обоснован выбор новой
метрики для выполнения экспериментов, заявленных в работе [1].
Оценка вопросно-ответной системы в целом.
Для оценки вопрос-
но-ответной системы в целом применяются следующие метрики:
Mean reciprocal rank [2];
Confidence weighted score [3];
Аккуратность [4];
NIL-точность и NIL-полнота [3];
c@1 [5].
Оценить валидацию ответа при таком подходе можно, сравнивая
прогоны системы в разных конфигурациях:
с отключенным модулем валидации;
с тривиальной реализацией модуля (например, на модели мешка
слов);
с вырожденной реализацией (отклонять все ответы);
с реализацией методов, предложенных другими авторами;
с предлагаемой реализацией, но c разными параметрами.
Сравнивая результаты этих прогонов можно оценить вклад пред-
лагаемой реализации модуля валидации ответов в качество вопросно-
ответной системы в целом.
Важным требованием к методу оценки системы в целом являет-
ся возможность учета варианта “нет ответа”. Чтобы вычислить такие
метрики, как
NIL-точность
и
NIL-полнота
, необходимо знать, есть
ли вообще в данной коллекции документов ответ на каждый тесто-
вый вопрос. Обычно такая информация добывается методом общего
котла: если хоть одна из тестируемых систем дала правильный ответ
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2013. № 1 59
1 3,4,5,6,7
Powered by FlippingBook