Взвешенная погрешность — новая метрика для оценки качества валидации ответов в задаче вопросно-ответного поиска - page 4

Таблица 1
Предложенные категории ответов системы для заданий РОМИП 2010
(не являются официальными метриками РОМИП)
Эталон
Прогон
Ответ на вопрос
есть в коллекции
Правильного
ответа на вопрос в
коллекции нет
Система дала хотя бы один правильный
ответ на вопрос
a
0
Система дала один или несколько отве-
тов на вопрос, но все неправильные
b
c
Система не дала ни одного ответа на
вопрос
d
e
Результаты эксперимента РОМИП показали, что применение пред-
ложенного метода валидации ответов позволило снизить уровень оши-
бок
E
с 59 до 26% при снижении полноты
R
с 8 до 5%.
После участия в РОМИП было принято решение построить те-
стовую коллекцию вопросов и ответов на основе заданий РОМИП,
но используя другой источник текстов — поисковую выдачу Яндекса.
Наличие такой коллекции с положительными и отрицательными при-
мерами ответов позволяет выполнять воспроизводимые эксперименты
для задачи валидации ответов, но не для оценки вопросно-ответной
системы в целом.
Валидация ответов как задача бинарной классификации.
Пред-
лагаемый способ оценки валидации ответов основан на традиционном
подходе к оценке в задаче классификации. Рассмотрим задачу вали-
дации как задачу бинарной классификации: тройку
h
вопрос, ответ,
сниппет
i
требуется отнести к одному из двух классов — верный ответ
(правильность ответа на вопрос следует из предоставленного сниппе-
та) или неверный.
В табл. 2 приведены четыре возможных исхода решения задачи
классификации.
Таблица 2
Категории результата бинарной классификации ответов
Наблюдаемый результат
Ожидаемый результат
Верный ответ
Неверный ответ
Верный ответ
tp
(true-positive)
fp
(false-positive, ошибка
первого рода)
Неверный ответ
fn
(false-negative,
ошибка второго
рода)
tn
(true-negative)
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2013. № 1 61
1,2,3 5,6,7
Powered by FlippingBook