случаев модель извлечения представляется правилами извлечения,
описывающими условия, которым должны удовлетворять фрагменты
текста, чтобы из них было выполнено извлечение. В идеальной систе-
ме правила извлечения должны охватывать все возможные фрагменты
текстов, подлежащие извлечению. Составление правил человеком-
экспертом вручную в большинстве случаев требует больших трудо-
затрат, кроме того, приводит к появлению правил, противоречащих
друг другу. Такие проблемы связаны с тем, что эксперт не в состоянии
запомнить все правила, которые он уже составил, и все фрагменты
текстов, которые эти правила охватывают. Зачастую правила, со-
ставленные таким образом, оказываются недостаточно полными и
охватывают только фрагменты текстов, которые известны эксперту, но
не охватывают аналогичные фрагменты, с которыми ранее эксперт не
сталкивался. Возможна и противоположная ситуация, когда эксперт
составляет слишком обобщенные правила, так что на практике они
ошибочно покрывают фрагменты, существование которых изначаль-
но не было учтено экспертом. В таком случае имеет место низкая
точность правил. Для решения указанных проблем целесообразно
использовать методы машинного обучения, позволяющие автомати-
чески формировать правила извлечения по обучающим примерам,
подготовленным экспертом.
В настоящей работе описан метод обучения для разработанной
ранее модели извлечения, кроме того, приведены результаты экспери-
ментов, проведенных над текстами из разных предметных областей,
дающие оценку точности и полноты обученных моделей и позволяю-
щие судить о предложенном методе обучения.
Обзор методов обучения для задач извлечения.
Методы обуче-
ния зависят от типа анализируемых текстов. Тексты можно разделить
на структурированные, слабоструктурированные и неструктурирован-
ные [1]. Особенностью структурированных текстов является наличие
специальных символов, не принадлежащих алфавиту естественного
языка. Такие символы используются для явного определения струк-
турных элементов в текстах, например с помощью HTML- или XML-
тэгов. К слабоструктурированным относятся тексты, где некоторые
извлекаемые знания явно выражены символами или цепочками сим-
волов, принадлежащими алфавиту языка. В работе [2] в качестве сла-
боструктурированных рассматривались тексты, описывающие свобод-
ные вакансии программистов в ИТ-компаниях. Описание каждой ва-
кансии имело несколько полей: название компании, язык програм-
мирования, платформа, опыт работы и т.д. К неструктурированным
относятся методы, извлекающие знания из текстов, авторы которых
явно не выделяли знания при их написании. В статье изложен метод
обучения, формирующий, в первую очередь, правила извлечения для
76 ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3