Взвешенная погрешность — новая метрика для оценки качества валидации ответов в задаче вопросно-ответного поиска - page 5

На основе этой таблицы определяются традиционные метрики ка-
чества классификации:
Accuracy
=
tp
+
tn
tp
+
tn
+
fp
+
fn
;
Error
=
fp
+
fn
tp
+
tn
+
fp
+
fn
= 1
Accuracy
;
P recision
=
tp
tp
+
fp
;
Recall
=
tp
tp
+
fn
;
F
β
=
(1 +
β
2
)
P recision
Recall
β
2
P recision
+
Recall
=
(1 +
β
2
)
tp
(1 +
β
2
)
tp
+
β
2
fn
+
fp
,
где коэффициент
β
2
[0; +
)
может рассматриваться как относитель-
ная степень важности показателей полноты и точности. При
β
= 1
/
2
точность вдвое важнее полноты, при
β
= 2
полнота вдвое важнее
точности.
В случае задачи валидации ответов показатель точности является
более важным, чем показатель полноты: задача вопросно-ответного
поиска разбивалась на две крупные фазы — генерацию гипотез-ответов
и проверку гипотез-ответов. Для первой фазы важным показателем
качества являлась полнота, для второй — точность [5].
Если рассмотреть модуль валидации как фильтр неверных ответов,
то задачей этого фильтра является уменьшение числа ошибок первого
рода
(
fp
)
, может быть даже в ущерб сокращению ошибок второго рода
(
fn
). Чтобы правильно сбалансировать эти два показателя, разложим
погрешность (
Error
) на сумму двух составляющих, соответствующих
ошибкам первого и второго рода:
Error
=
fp
+
fn
tp
+
tn
+
fp
+
fn
=
Error
I
+
Error
II
;
Error
I
=
fp
tp
+
tn
+
fp
+
fn
,
Error
II
=
fn
tp
+
tn
+
fp
+
fn
.
Чтобы подчеркнуть важность ошибок первого рода для задачи
валидации, можно определить взвешенную погрешность, в которой
ошибки первого и второго рода будут иметь разные веса:
E
α
=
α
fp
+
fn
α
+ 1
tp
+
tn
+
α
fp
+
fn
α
+ 1
=
α
fp
+
fn
(
α
+ 1)
(
tp
+
tn
) +
α
fp
+
fn
;
здесь коэффициент
α
2
[0; +
)
имеет тот же смысл, что и
β
в
F
-мере — относительная степень важности ошибок первого и вто-
рого рода. При
α
= 1
/
2
ошибки второго рода вдвое важнее (менее
62 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2013. № 1
1,2,3,4 6,7
Powered by FlippingBook