Взвешенная погрешность — новая метрика для оценки качества валидации ответов в задаче вопросно-ответного поиска - page 6

желательны) ошибок первого рода, при
α
= 2
ошибки первого рода
вдвое важнее ошибок второго рода.
Главным отличием предложенной взвешенной погрешности
E
α
от
F
-меры является учет вклада
true-negative
— числа правильно отсеян-
ных ответов. При
tn
max(
tp, fn, fp
)
, т.е. когда коллекция состоит
в основном из отрицательных примеров и фильтр срабатывает пра-
вильно,
F
-мера не меняется, в то время как показатель погрешности
стремится к нулю.
Отметим, что тестовая коллекция для валидации ответов действи-
тельно должна состоять из преимущественно отрицательных приме-
ров, так как в реальной вопросно-ответной системе на этапе генерации
гипотез порождается множество ложных ответов и малое число пра-
вильных.
Результаты экспериментов.
Предложенный показатель
E
α
=2
,
0
предлагается для сравнения разных алгоритмов валидации ответов[1].
Но так как этот показатель не является общепринятым и вводит-
ся впервые, то для каждого эксперимента будем также указывать
традиционный показатель
F
β
=0
,
5
. В табл. 3 представлены резуль-
таты экспериментальных прогонов различных алгоритмов валида-
ции ответов, основанных на представлении текста в виде деревьев
синтактико-семантических зависимостей. Синтаксико-семантический
разбор предложений выполнен с помощью библиотеки AOT.Seman.
Таблица 3
Результаты прогонов различных реализаций модуля валидации ответов
Алгоритм валидации
fn tn tp fp Accuracy F
0
,
5
E
2
,
0
Отклонять все ответы
35,8 64,2 0 0
65
0 15,19
Допускать все ответы
0 0 35,8 64,2 35
40 55,37
Пересечение множеств слов [7]
20,3 43,9 18,1 17,7 62
48 23,87
Пересечение множеств связей [7] 31,8 59,2 6,1 2,9
68
43 14,75
Совмещение вершин деревьев [8] 19,6 50,0 15,9 14,5 66
51 19,70
Расстояние редактирования [9]
32,3 60,4 3,3 4,0
64
26 17,44
Параллельный обход графов [1,6] 25,6 61,5 10,0 2,9
71
57 12,80
Сопоставление сказуемых [10]
25,9 60,7 9,7 3,7
70
54 13,64
П р и м е ч а н и е. Значения метрик указаны в процентах.
Accuracy/F
— большее
значение лучше.
E
— меньшее значение лучше.
Из табл. 3 следует, что определение лучших прогонов по метрикам
F
0
.
5
и
E
2
.
0
согласуется. Однако метрика
E
2
.
0
делает конкурентоспо-
собным тривиальный алгоритм “Отклонять все ответы”, что позволяет
провести нижнюю границу качества (0,1519 для нашей тестовой кол-
лекции), за которую алгоритмы не должны заходить. Так, алгоритмы
“Расстояния редактирования” и “Совмещения вершин деревьев” пока-
зывают результаты хуже, чем этот тривиальный алгоритм;
F
-мера не
позволяет выполнять такое сравнение.
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2013. № 1 63
1,2,3,4,5 7
Powered by FlippingBook