Метод обучения модели извлечения знанийиз естественно-языковых текстов - page 2

случаев модель извлечения представляется правилами извлечения,

описывающими условия, которым должны удовлетворять фрагменты

текста, чтобы из них было выполнено извлечение. В идеальной систе-

ме правила извлечения должны охватывать все возможные фрагменты

текстов, подлежащие извлечению. Составление правил человеком-

экспертом вручную в большинстве случаев требует больших трудо-

затрат, кроме того, приводит к появлению правил, противоречащих

друг другу. Такие проблемы связаны с тем, что эксперт не в состоянии

запомнить все правила, которые он уже составил, и все фрагменты

текстов, которые эти правила охватывают. Зачастую правила, со-

ставленные таким образом, оказываются недостаточно полными и

охватывают только фрагменты текстов, которые известны эксперту, но

не охватывают аналогичные фрагменты, с которыми ранее эксперт не

сталкивался. Возможна и противоположная ситуация, когда эксперт

составляет слишком обобщенные правила, так что на практике они

ошибочно покрывают фрагменты, существование которых изначаль-

но не было учтено экспертом. В таком случае имеет место низкая

точность правил. Для решения указанных проблем целесообразно

использовать методы машинного обучения, позволяющие автомати-

чески формировать правила извлечения по обучающим примерам,

подготовленным экспертом.

В настоящей работе описан метод обучения для разработанной

ранее модели извлечения, кроме того, приведены результаты экспери-

ментов, проведенных над текстами из разных предметных областей,

дающие оценку точности и полноты обученных моделей и позволяю-

щие судить о предложенном методе обучения.

Обзор методов обучения для задач извлечения.

Методы обуче-

ния зависят от типа анализируемых текстов. Тексты можно разделить

на структурированные, слабоструктурированные и неструктурирован-

ные [1]. Особенностью структурированных текстов является наличие

специальных символов, не принадлежащих алфавиту естественного

языка. Такие символы используются для явного определения струк-

турных элементов в текстах, например с помощью HTML- или XML-

тэгов. К слабоструктурированным относятся тексты, где некоторые

извлекаемые знания явно выражены символами или цепочками сим-

волов, принадлежащими алфавиту языка. В работе [2] в качестве сла-

боструктурированных рассматривались тексты, описывающие свобод-

ные вакансии программистов в ИТ-компаниях. Описание каждой ва-

кансии имело несколько полей: название компании, язык програм-

мирования, платформа, опыт работы и т.д. К неструктурированным

относятся методы, извлекающие знания из текстов, авторы которых

явно не выделяли знания при их написании. В статье изложен метод

обучения, формирующий, в первую очередь, правила извлечения для

76 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1 3,4,5,6,7,8,9,10,11,12,...19