Взвешенная погрешность — новая метрика для оценки качества валидации ответов в задаче вопросно-ответного поиска - page 3

на вопрос (т.е. отмеченный асессорами как правильный), то ответ на
вопрос существует.
Таким образом, если оцениваемая система дает неверный ответ
на вопрос, для которого не существует ответа, значит у нее
низкая
NIL-полнота
. Если система не дает ответ на вопрос, для которого
какая-то другая система успешно нашла ответ, значит у нее
низкая
NIL-точность
.
Процедура оценки вопросно-ответной системы очень трудоемка,
так как требует работы нескольких асессоров, оценивающих резуль-
таты множества прогонов. Обычно такую оценку проводят в рамках
ежегодных кампаний TREC, CLEF, TAC, РОМИП.
В работе [6] опубликованы результаты участия автора в семина-
ре по оценке методов информационного поиска РОМИП. Организа-
торы семинара отметили низкую эффективность кампании (дорожки
вопросно-ответного поиска в 2010 г.) — значительные усилия асессо-
ров были потрачены, чтобы констатировать тот факт, что тестовые
вопросы слабо соответствовали предложенной участникам коллекции
документов. Так, только для 60 заданий из 246 асессоры предполагали,
что документ с ответом существует в коллекции.
К сожалению, метрики вопросно-ответной дорожки, предоставлен-
ные организаторами, не позволяли адекватно сравнить прогоны, так
как никак не поощряли вариант “нет ответа”, хотя это должен быть
самый распространенный правильный ответ. Были представлены сле-
дующие метрики:
на сколько запросов был подан хоть один вариант ответа;
число запросов у которых есть хотя бы один ответ с оценкой
good
;
число запросов, у которых есть хотя бы один ответ с оценками
good
,
long
или
partial
;
число запросов, у которых есть хотя бы один длинный ответ
(фрагмент) с оценкой
good
;
число запросов, у которых есть хотя бы один длинный ответ
(фрагмент) с оценками
good
или
partial
.
Чтобы исправить этот недочет, были предложены две метрики на
основе категорий вопросов, представленных в табл. 1:
ошибка
E
— отношение числа неправильно принятых решений к
общему числу решений,
E
=
b
+
c
+
d
a
+
b
+
c
+
d
+
e
;
полнота
R
— отношение числа вопросов с правильными ответами
к общему числу вопросов, имеющих ответ в коллекции,
R
=
a
a
+
b
+
d
.
60 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2013. № 1
1,2 4,5,6,7
Powered by FlippingBook