Модели и методы автоматической классификации текстовых документов - page 11

ют смысл текста
.
Например
,
словосочетание
классификация текстов
точнее соответствует смыслу настоящей работы
,
чем слово
классифи
-
кация
”.
Разбить текст на слова очень просто
:
границей слова является сим
-
вол пробела или знак препинания
.
Разбиение же текста на словосочета
-
ния представляет собой сложную задачу
далеко не все идущие под
-
ряд слова текста составляют осмысленное связное словосочетание
,
ко
-
торое можно использовать для анализа
.
Более того
,
такие словосочета
-
ния часто формируются из слов
,
которые в тексте не идут подряд
(
на
-
пример
, “
осмысленное словосочетание
в случае предыдущего пред
-
ложения
).
Для выделения в тексте словосочетаний используют формальные
методы
,
основанные на синтаксическом анализе
[5–7],
или приближен
-
ные
,
статистические методы
.
Один из таких методов будет рассмотрен
далее
.
Эквивалентность терминов
.
Для программы некоторые слова удоб
-
но считать эквивалентными
.
Например
,
поисковая программа будет по
запросу
конь
находить документ
,
в котором присутствует только сло
-
во
коня
”.
В зависимости от задачи эквивалентными могут считаться
:
слова
,
записанные буквами разного регистра
(
СЛОВО
,
слово
,
Слово
,
слоВО
);
формы одного и того же слова
(
конь
,
коня
,
коню
,
коням и т
.
д
.);
слова
,
находящиеся в одном и том же словообразовательном ряду
(
слово
,
словарь
,
словарный
);
слова
,
имеющие один и тот же корень
(
море
,
заморский
);
элементы одного синонимического ряда
(
холод
,
стужа
,
мороз
).
При сопоставлении словосочетаний количество вариантов увеличи
-
вается
:
можно учитывать или не учитывать порядок слов
,
синтаксиче
-
скую структуру и т
.
д
. [3].
Нормальная форма термина
.
Процедуры проверки терминов на
эквивалентность очень сложны
.
Для того чтобы их упростить
,
термины
приводят к специальному виду
нормальной форме таким образом
,
чтобы все эквивалентные термины имели одну и ту же нормальную
форму
.
После такого преобразования проверка эквивалентности сво
-
дится к двоичному сравнению
.
При сравнении слов без учета регистра
достаточно понизить регистр букв слова
,
для других критериев экви
-
валентности приведение к нормальной форме более сложно
.
Для сравнения с точностью до формы слова существительные при
-
водят к именительному падежу единственного числа
,
глаголы
к ин
-
финитиву и т
.
д
.
Для этого необходимо использовать морфологические
словари
[8]
или специальные таблицы для приближенного преобразо
-
вания
[7].
74 ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4
1...,2,3,4,5,6,7,8,9,10 12,13,14,15,16,17,18,19,20,21,...31
Powered by FlippingBook