Взвешенная погрешность — новая метрика для оценки качества валидации ответов в задаче вопросно-ответного поиска - page 2

вид информационно-поисковых систем, способных обрабатывать вве-

денный пользователем вопрос на естественном языке и выдавать

осмысленный ответ. В отличие от задачи классического поиска по

ключевым словам, в которой результатом является перечень доку-

ментов, содержащих ответ на вопрос, в задаче вопросно-ответного

поиска — это краткий и лаконичный ответ, сформированный системой

в результате анализа разнообразных источников данных. Примером

такого источника может служить некоторая коллекция полнотексто-

вых документов (множество страниц глобальной сети Интернет), а

ответ составляется из фрагмента наиболее релевантного документа

коллекции.

Обзор существующих методов валидации ответов, описание раз-

рабатываемого метода параллельного обхода графов и формулировка

задачи экспериментального исследования этих методов были приве-

дены в работе [1]. В настоящей статье рассмотрены существующие

подходы к экспериментальной оценке качества вопросно-ответных си-

стем, в частности модуля валидации ответов. Обоснован выбор новой

метрики для выполнения экспериментов, заявленных в работе [1].

Оценка вопросно-ответной системы в целом.

Для оценки вопрос-

но-ответной системы в целом применяются следующие метрики:

•

Mean reciprocal rank [2];

•

Confidence weighted score [3];

•

Аккуратность [4];

•

NIL-точность и NIL-полнота [3];

•

c@1 [5].

Оценить валидацию ответа при таком подходе можно, сравнивая

прогоны системы в разных конфигурациях:

•

с отключенным модулем валидации;

•

с тривиальной реализацией модуля (например, на модели мешка

слов);

•

с вырожденной реализацией (отклонять все ответы);

•

с реализацией методов, предложенных другими авторами;

•

с предлагаемой реализацией, но c разными параметрами.

Сравнивая результаты этих прогонов можно оценить вклад пред-

лагаемой реализации модуля валидации ответов в качество вопросно-

ответной системы в целом.

Важным требованием к методу оценки системы в целом являет-

ся возможность учета варианта “нет ответа”. Чтобы вычислить такие

метрики, как

NIL-точность

NIL-полнота

, необходимо знать, есть

ли вообще в данной коллекции документов ответ на каждый тесто-

вый вопрос. Обычно такая информация добывается методом общего

котла: если хоть одна из тестируемых систем дала правильный ответ

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2013. № 1 59

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1 3,4,5,6,7