Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 15

Рис. 5. Результат эксперимента для текстов новостей
щими выборками. Экспериментальной оценке подвергались: точность
P
=
a/b
, полнота
R
=
a/N
t
и
F
-мера извлечения
F
= 2
a/b
+
N
t
,
где
a
— количество корректных извлечений, выполненных обученной
моделью;
b
— общее число извлечений, выполненных обученной моде-
лью;
N
t
— эталонное число корректных извлечений, которые должна
сделать модель.
Обучение на текстах новостей.
Тестовая выборка сформирова-
на на основе ленты новостей Интернет-портала, посвященного сфере
информационных технологий. Проверке подвергались значения сло-
та “Название компании”. Тестовая выборка содержит 3044 названия
компаний-производителей продуктов информационных технологий. В
обучении использовались выборки от 100 до 1000 обучающих приме-
ров с шагом 100. На рис. 5 отражены графики зависимости оценивае-
мых показателей качеств от размера обучающей выборки.
Графики демонстрируют общий рост всех трех показателей каче-
ства от размера обучающей выборки, при этом разница между точно-
стью и полнотой не превышает 0,05. Для 30% общего числа обучаю-
щих примеров
F
-мера обученной модели достигает значения 0,85.
Обучение на стенограммах заседаний.
Выборка взята из базы дан-
ных стенограмм заседаний Совета Федерации Федерального Собра-
ния РФ. Проверке подвергались значения слота “Фамилия члена Со-
вета Федерации”. Тестовая выборка содержит 1177 фамилий членов
Совета Федерации. В обучении использовали выборки от 50 до 250
обучающих примеров с шагом 50. На рис. 6 приведены графики за-
висимости оцениваемых показателей качества от размера обучающей
выборки, которые демонстрируют практически линейную зависимость
показателей качества от размера обучающей выборки. Максимальная
разница между полнотой и точностью достигает 0,1. В отличие от пре-
дыдущего теста, значение
F
-меры, равное 0,85, достигается для 25%
общего числа обучающих примеров.
Обучение на текстах почтовых адресов.
Тексты взяты из базы
почтовых адресов клиентов банка. Проверке подвергались значения
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3 89
1...,5,6,7,8,9,10,11,12,13,14 16,17,18,19
Powered by FlippingBook