Модели и методы автоматической классификации текстовых документов - page 30

промежуточных результатов
.
Низкая скорость синтаксического анали
-
за определяется большим количеством вариантов
,
которые необходимо
перебрать при выявлении связей между словами
.
С помощью синтаксического анализа получаются более точные
термины
,
однако плохо обрабатываются незнакомые морфологическим
библиотекам слова
.
Таким образом
,
если текст содержит много иденти
-
фикаторов
,
аббревиатур или английских слов
,
синтаксический анализ
будет работать хуже статистического
.
Например
,
в тестовых докумен
-
тах с помощью синтаксического анализа выделены слова
Windows
и
NT
по отдельности
,
а с помощью статистического
словосочетание
Windows NT.
Статистическая процедура значительно проще переносится на дру
-
гой язык
.
В настоящее время авторами настоящей работы подготовлен
модуль приближенного выделения терминов из английских текстов
.
СПИСОК ЛИТЕРАТУРЫ
1. C h e k u r i C h., G o l d w a s s e r M. H. Web Search Using Automatic Classification
(Computer Science Department, Stanford University).
2.
К а н е в с к и й Е
.
А
.
Методы классификации текста
//
Труды Международного
семинара
Диалог
0
98”
по компьютерной лингвистике и ее приложениям
.
Т
. 2. –
М
., 1998. –
С
. 488–497.
3.
С о м и н Н
.
В
.,
С о л о в ь е в а Н
.
С
.,
С о л о в ь е в С
.
В
.
Система рубрика
-
ции текстовых сообщений
//
Труды Международного семинара
Диалог
0
98”
по
компьютерной лингвистике и ее приложениям
.
Т
. 2. –
М
., 1998. –
С
. 574–581.
4.
Ш а б а н о в В
.
И
.
Автоматическое индексирование запросов в документальной
ИПС
,
основанное на статистической и морфологической информации
//
Компью
-
Лог
. – 1997. –
3. –
С
. 20–24.
5.
Х а н т Э
.
Искусственный интеллект
. –
М
.:
Мир
, 1978. – 560
с
.
6.
С о л т о н Д ж
.
Динамические библиотечно
-
информационные системы
. –
М
.:
Мир
, 1979. – 550
с
.
7.
Б е л о н о г о в Г
.
Г
.,
Б о г а т ы р е в В
.
И
.
Автоматизированные информационные
системы
. –
М
.:
Сов
.
радио
, 1973. – 325
с
.
8.
Г р а м м а т и ч е с к и й словарь русского языка
/
Под ред
.
А
.
А
.
Зализняка
. –
М
.:
Русский язык
, 1977.
9.
А ш м а н о в И
.
С
.
Методы анализа текстов на естественном языке
,
используе
-
мые при проверке его орфографии и пунктуации
/
Дисс
.. . .
канд
.
техн
.
наук
. –
М
.,
1994.
10.
А н д р е е в А
.
М
.,
Б е р е з к и н Д
.
В
.,
Ш а б а н о в В
.
И
.
Методы выделения
терминов из текста
//
Современные информационные технологии
:
Сб
.
докл
. –
М
.:
МГТУ им
.
Н
.
Э
.
Баумана
, 2001. –
С
. 117–127.
11.
Ш а б а н о в В
.
И
.,
А н д р е е в А
.
М
.,
С ю з е в В
.
В
.
Построение ассоци
-
ативных связей в системе обработки текстов
//
Современные информационные
технологии
.
Юбилейн
.
сб
.
трудов кафедры
. –
М
.:
МГТУ им
.
Н
.
Э
.
Баумана
, 2002.
С
. 191–196.
12.
П е р е в о з ч и к о в а К
.
В
.
Экспериментальное исследование вторичных доку
-
ментов
,
полученных машинным экстрагированием по маркерно
-
индикаторному
методу
//
НТИ
.
Сер
. 2. – 1987. –
6. –
С
. 23–29.
ISSN 0236-3933.
Вестник МГТУ им
.
Н
.
Э
.
Баумана
.
Сер
. “
Приборостроение
”. 2003.
4 93
1...,20,21,22,23,24,25,26,27,28,29 31
Powered by FlippingBook