Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 17

только 0,6, хотя разница между точностью и полнотой в этой точке не
превышает 0,1. Такое низкое качество объясняется тем, что для Rapier
точка в 200 примеров является точкой насыщения, после которой гра-
фики точности и полноты практически не изменяются, тогда как в
нашем случае такой точкой можно считать отметку в 600 примеров.
В этом случае
F
-мера обученной модели извлечения достигает 0,75,
при этом разница между полнотой и точностью составляет не более
0,05. Это является основным преимуществом разработанной модели
по сравнению с рассматриваемыми аналогами — малая разница между
полнотой и точностью обученной модели в точке насыщения. Такое
свойство обученной модели, в первую очередь, связано с предложен-
ной стратегией итеративного обобщения процесса обучения. Вместе с
тем, в нашем случае насыщение достигается позже, т.е. для качествен-
ного обучения требуется большее число обучающих примеров. Но этот
факт нельзя считать недостатком в сравнении с Rapier, поскольку на
этот показатель сильно влияет содержимое обучающей выборки, пред-
метная область текстов и естественный язык, на котором эти тексты
написаны. Графики на рис. 5, 6 и 7 это наглядно демонстрируют.
Другой алгоритм, использующий скрытые марковские модели
(HMM), предложенный в работе [8], использовался для распознавания
адресных объектов в почтовых адресах, представленных сплошными
строками. Cистема [8] достигала значения
F
= 0
,
9
на 50 примерах
американских адресов, и на 300 примерах индийских адресов. Как
видно из рис. 7, предложенная в данной работе модель обучается
на 40 примерах российских адресов для достижения аналогичного
качества.
Поскольку в работах [2] и [8] проводились эксперименты с ан-
глоязычными выборками, которыми мы не располагаем, говорить о
преимуществах представленного в настоящей статье метода было бы
несправедливо. Здесь мы всего лишь хотим показать сопоставимость
нашего подхода с подходами зарубежных исследователей.
Выводы.
В работе описан метод обучения разработанной ранее
модели извлечения знаний из текстов на естественном языке. Ме-
тод сохраняет работоспособность в условиях “зашумленности” обу-
чающих примеров, т.е. примеров, содержащих как ошибки эксперта-
составителя, так и естественно-языковые исключения. Модифициро-
ванная стратегия итеративного обобщения позволяет получить в ре-
зультате обучения малую разницу между значениями точности и пол-
ноты модели при том, что общее значение
F
-меры сохраняется высо-
ким.
Разработанный метод может быть использован в различных зада-
чах, связанных с обработкой неструктурированных и слабоструктури-
рованных текстов. Обученные по данному методу модели извлечения
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3 91
1...,7,8,9,10,11,12,13,14,15,16 18,19
Powered by FlippingBook