Взвешенная погрешность — новая метрика для оценки качества валидации ответов в задаче вопросно-ответного поиска

на вопрос (т.е. отмеченный асессорами как правильный), то ответ на

вопрос существует.

Таким образом, если оцениваемая система дает неверный ответ

на вопрос, для которого не существует ответа, значит у нее

низкая

NIL-полнота

. Если система не дает ответ на вопрос, для которого

какая-то другая система успешно нашла ответ, значит у нее

низкая

NIL-точность

.

Процедура оценки вопросно-ответной системы очень трудоемка,

так как требует работы нескольких асессоров, оценивающих резуль-

таты множества прогонов. Обычно такую оценку проводят в рамках

ежегодных кампаний TREC, CLEF, TAC, РОМИП.

В работе [6] опубликованы результаты участия автора в семина-

ре по оценке методов информационного поиска РОМИП. Организа-

торы семинара отметили низкую эффективность кампании (дорожки

вопросно-ответного поиска в 2010 г.) — значительные усилия асессо-

ров были потрачены, чтобы констатировать тот факт, что тестовые

вопросы слабо соответствовали предложенной участникам коллекции

документов. Так, только для 60 заданий из 246 асессоры предполагали,

что документ с ответом существует в коллекции.

К сожалению, метрики вопросно-ответной дорожки, предоставлен-

ные организаторами, не позволяли адекватно сравнить прогоны, так

как никак не поощряли вариант “нет ответа”, хотя это должен быть

самый распространенный правильный ответ. Были представлены сле-

дующие метрики:

•

на сколько запросов был подан хоть один вариант ответа;

•

число запросов у которых есть хотя бы один ответ с оценкой

good

;

•

число запросов, у которых есть хотя бы один ответ с оценками

good

,

long

или

partial

;

•

число запросов, у которых есть хотя бы один длинный ответ

(фрагмент) с оценкой

good

;

•

число запросов, у которых есть хотя бы один длинный ответ

(фрагмент) с оценками

good

или

partial

.

Чтобы исправить этот недочет, были предложены две метрики на

основе категорий вопросов, представленных в табл. 1:

ошибка

E

— отношение числа неправильно принятых решений к

общему числу решений,

E

=

b

+

c

+

d

a

+

b

+

c

+

d

+

e

;

полнота

R

— отношение числа вопросов с правильными ответами

к общему числу вопросов, имеющих ответ в коллекции,

R

=

a

+

b

+

d

.

60 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2013. № 1

Взвешенная погрешность — новая метрика для оценки качества валидации ответов в задаче вопросно-ответного поиска - page 3

Warning.