|

Взвешенная погрешность — новая метрика для оценки качества валидации ответов в задаче вопросно-ответного поиска

Авторы: Соловьeв А.А. Опубликовано: 16.05.2013
Опубликовано в выпуске: #1(90)/2013  
DOI:

 
Раздел: Информатика и вычислительная техника  
Ключевые слова: информационный поиск, вопросно-ответный поиск, вопросно-ответные системы, проверка ответов, валидация ответов, компьютерная лингвистика, обработка естественного языка.

Рассмотрена подзадача валидации ответов в задаче вопросно-ответного поиска. Традиционными метриками качества на семинарах TAC-RTE и CLEF-AVE являются аккуратность (accuracy) и F-мера. По результатам участия в семинаре РОМИП-2010 отмечено, что число ложных ответов-гипотез, которые должен отклонить модуль валидации ответов, часто значительно превышает число верных ответов. Предложена новая метрика — взвешенная погрешность, которая чаще штрафует систему за ошибки первого рода (пользователю показан неверный ответ — falsepositive), чем за ошибки второго рода (правильный ответ отвергнут и пользователю не показан — falsenegative). В отличие от F-меры она также поощряет систему за верно отфильтрованный ответ (truenegative).

Литература

[1] Соловьев А.А. Алгоритмы валидации ответов в задаче вопросно-ответного поиска // Вестник Воронежского гос. ун-та. Сер.: Системный анализ и информационные технологии. – 2011. – № 2. – C. 181–188.

[2] Voorhees E. The TREC-8 question answering track report // In Proc. of the Eighth Text REtrieval Conference (TREC 8). – 1999. – P. 77–82.

[3] Voorhees E.M. Overview of the TREC 2002 question answering track // In Proc. of the Eleventh Text Retrieval Conference (TREC 2002). – P. 57–67.

[4] Voorhees E.M. Overview of the TREC 2004 question answering track // In Proc. of The Thirteenth Text Retrieval Conference (TREC 2004).

[5] Peсas А., Hovy E., Forner P., Rodrigo A., Sutcliffe R., Forascu C. and Sporleder C. Overview of QA4MRE at CLEF 2011: Question answering for machine reading evaluation // Working Notes for the CLEF 2011 Workshop. – 2011.

[6] Соловьев А.А. Кто виноват и где собака зарыта? Метод валидации ответов на основе неточного сравнения семантических графов в вопросно-ответной системе // Российский семинар по оценке методов информационного поиска: Тр. РОМИП 2010. (Казань, 15 октября 2010 г.).

[7] Wang Neumann. Using recognizing textual entailment as a core engine for answer validation // Working Notes for the CLEF 2008 Workshop. – 2008.

[8] Marsi E., Krahmer E., Bosma W.E., Theune M. Normalized alignment of dependency trees for detecting textual entailment // Second PASCAL Recognising Textual Entailment Challenge. – 10–12 April 2006. – Venice, Italy.

[9] Punyakanok V., Roth D. and Yih W. Natural language interface via dependency tree mapping: An application to question answering // AI and Math. – January, 2004.

[10] Schlaefer N. A semantic approach to question answering. Saarbrucken 2007.