Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 16

Рис. 6. Результат эксперимента для текстов стенограмм заседаний

слота “Название улицы”. Тестовая выборка содержит 200 адресов. В

обучении использовались выборки от 5 до 40 обучающих примеров

с шагом 5. На рис. 7 приведены графики зависимости оцениваемых

показателей точности от размера обучающей выборки для данного

теста, которые демонстрируют экспоненциальную зависимость пока-

зателя качества

от размера обучающей выборки. Разница между

точностью и полнотой, начиная с размера выборки 30, не превышает

0,05. Особенность данного теста заключается в том, что для 20% об-

щего числа обучающих примеров, модель достигает значения

-меры,

близкого к 1.

Сопоставление с аналогами.

Наиболее близкой к данной разработ-

ке является система Rapier [3]. Эта систем тестировалась на сообщени-

ях об ИТ-вакансиях в различных компаниях, извлечению подвергались

названия компаний, языки программирования и др. По заявлениям ав-

торов, точность системы извлечения, обученной на 200 примерах, со-

ставляет 0,85, а полнота извлечения — 0,6. При этом значение

-меры

составляет 0,7. Как утверждают сами авторы, для Rapier характерна

высокая точность, но низкая полнота. Разница между этими параме-

трами составляет 0,25. Если сопоставлять данные показатели с наши-

ми тестами, проведенными с текстами новостей, то предложенный ме-

тод обучения на 200 примерах обеспечит значения

-меры (см. рис. 5)

Рис. 7. Результат эксперимента для текстов почтовых адресов

90 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1...,6,7,8,9,10,11,12,13,14,15 17,18,19