Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 3

неструктурированных текстов, тем не менее, его можно использовать
и для первых двух типов текстов.
Методы обучения разделяются по стратегии обучения на методы,
действующие “сверху вниз” и “снизу вверх”. Первые выполняют ите-
ративную конкретизацию [3], формируя из общих правил более кон-
кретные правила. Сложность таких методов применительно к есте-
ственному языку заключается в том, что при большой обучающей
выборке примеров на первых шагах обучения приходится перебирать
чрезвычайно большое число вариантов “расщепления” общего прави-
ла на более конкретные. Методы, действующие по принципу “снизу
вверх” [4] формируют из конкретных правил более общие правила.
Для обработки естественно-языковых текстов такие методы подходят
лучше, поскольку число возможных вариантов обобщения текущих
правил ограничено. Основным недостатком такой стратегии является
“недоученность” модели. Это проявляется в том, что результат обуче-
ния представлен недостаточно общими правилами, что в итоге снижа-
ет полноту извлечения обученной модели.
По стратегии использования обучающих примеров методы разде-
ляются на “сжимающие” и “покрывающие”. Для первых [2] характер-
но использование всех обучающих примеров на каждом этапе обуче-
ния. Покрывающая стратегия предписывает отбрасывать обучающие
примеры, для покрытия которых уже сформированы правила извлече-
ния [5].
По способу представления обучающих примеров методы разделя-
ются на следующие группы. Методы, использующие примеры, пред-
ставленные в виде логики нулевого порядка (атрибутивная логика)
[6]. Такие примеры ограничиваются описанием признаков текстовых
элементов извлекаемых фрагментов, при этом не учитывается взаи-
мосвязь между этими элементами. В таких методах полагается, что
синтаксические шаблоны текстовых элементов извлекаемых фрагмен-
тов предопределены, поэтому синтаксические роли элементов могут
быть представлены в виде соответствующих признаков (атрибутов).
Методы, использующие примеры в виде логики первого порядка [5],
учитывают не только признаки текстовых элементов, но и взаимо-
связи между ними. Предопределенных синтаксических шаблонов не
существует, они выводятся в процессе обучения и являются частью
полученных правил извлечения.
По типу формируемых правил выделяют методы, формирующие
правила, которые извлекают значения только одного слота целевой
структуры [7], и методы, формирующие правила, способные извлекать
значения всех слотов целевой структуры одновременно [8].
Анализ существующих подходов к извлечению знаний из текстов
выполнен преимущественно на основе зарубежных разработок, что
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3 77
1,2 4,5,6,7,8,9,10,11,12,13,...19
Powered by FlippingBook