УДК 519.767.6
А. М. А н д р е е в, Д. В. Б е р е з к и н,
К. В. C и м а к о в
МЕТОД ОБУЧЕНИЯ МОДЕЛИ ИЗВЛЕЧЕНИЯ
ЗНАНИЙ ИЗ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ
ТЕКСТОВ
Приведен метод обучения модели извлечения знаний из
естественно-языковых текстов. Возможность обучения обеспе-
чивается простотой правил извлечения и решеткой лексических
ограничений, являющихся ключевыми элементами модели. Метод
обучения формирует набор правил на основе обучающих примеров,
подготовленных человеком-экспертом. Проведен ряд эксперимен-
тов, дана оценка зависимости основных показателей качества
обученной модели от свойств исходной обучающей выборки.
Основное назначение технологий извлечения знаний из естествен-
но-языковых текстов заключается в сборе представляющих интерес
фактов по массиву текстов некоторой предметной области. Извлекае-
мые факты представляют собой структурированное описание событий
и явлений, излагаемых в анализируемых текстах. Например, струк-
турными элементами фактов могут быть имена/названия, участники
события, их цели и средства, место события, его причины и послед-
ствия.
Одно из популярных применений технологий извлечения — это со-
ставление досье на представляющий интерес объект, информация о
котором доступна из открытых источников, таких как тексты ново-
стей электронных СМИ. Например, интересующим объектом может
выступать некоторый политический деятель, досье на которого может
включать такую информацию, как фамилия, имя, отчество, возраст,
происхождение, образование и т.д. Аналогичным образом выполняет-
ся разведка в коммерческих целях, когда некоторая компания инте-
ресуется активностью конкурента, действия которого освещаются в
СМИ. В данном случае извлечению подвергаются данные об анонси-
руемых продуктах конкурента, сделках с другими участниками рынка,
изменениях, происходящих на руководящих должностях, а также о по-
глощених и слияниях других компаний. Вместе с тем, компания может
интересоваться собственным информационным портретом, отражае-
мым СМИ. Этот портрет, кроме досье, может содержать элементы,
учитывающие отношения потребителей к продвигаемым компанией
брендам.
Основной проблемой при построении системы извлечения являет-
ся обеспечение должной полноты и точности модели. В большинстве
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2007. № 3 75