Рис. 6. Результат эксперимента для текстов стенограмм заседаний
слота “Название улицы”. Тестовая выборка содержит 200 адресов. В
обучении использовались выборки от 5 до 40 обучающих примеров
с шагом 5. На рис. 7 приведены графики зависимости оцениваемых
показателей точности от размера обучающей выборки для данного
теста, которые демонстрируют экспоненциальную зависимость пока-
зателя качества
F
от размера обучающей выборки. Разница между
точностью и полнотой, начиная с размера выборки 30, не превышает
0,05. Особенность данного теста заключается в том, что для 20% об-
щего числа обучающих примеров, модель достигает значения
F
-меры,
близкого к 1.
Сопоставление с аналогами.
Наиболее близкой к данной разработ-
ке является система Rapier [3]. Эта систем тестировалась на сообщени-
ях об ИТ-вакансиях в различных компаниях, извлечению подвергались
названия компаний, языки программирования и др. По заявлениям ав-
торов, точность системы извлечения, обученной на 200 примерах, со-
ставляет 0,85, а полнота извлечения — 0,6. При этом значение
F
-меры
составляет 0,7. Как утверждают сами авторы, для Rapier характерна
высокая точность, но низкая полнота. Разница между этими параме-
трами составляет 0,25. Если сопоставлять данные показатели с наши-
ми тестами, проведенными с текстами новостей, то предложенный ме-
тод обучения на 200 примерах обеспечит значения
F
-меры (см. рис. 5)
Рис. 7. Результат эксперимента для текстов почтовых адресов
90 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3