Previous Page  2 / 11 Next Page
Information
Show Menu
Previous Page 2 / 11 Next Page
Page Background

Предсказание атрибутов профиля пользователя социальной сети…

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2017. № 2

67

В настоящее время существует несколько методов решения данной пробле-

мы. Большинство из них можно отнести к одному из четырех подходов:

перенос атрибутов соседних вершин путем простого голосования или

по другому правилу;

методы, основанные на машинном обучении;

методы, основанные на выделении сообществ;

предсказание атрибутов по предпочтениям пользователя.

В качестве примеров методов, основанных на переносе атрибутов, можно

привести работы [1, 2]. В [1] продемонстрирована возможность предсказания

местоположения пользователя сети Twitter по мажоритарному признаку сосе-

дей. Предложенный метод показал довольно высокие (до 86 %) значения точно-

сти, но низкую (менее 20 %) полноту. В исследовании [2] был предложен алго-

ритм предсказания мест работы и обучения, местоположение пользователя, ко-

торый дает 60…68 % правильных ответов на выборке графов ближайшего

окружения пользователей из социальной сети LinkedIn.

Результаты предсказания в работах, основанных на машинном обучении,

сильно зависят от качества обучающей выборки. В исследовании [3] был проведен

сравнительный анализ нескольких методов машинного обучения для предсказа-

ния пола и возраста семи миллионов пользователей сотового оператора по дан-

ным о звонках и SMS-сообщениях. При обучении на 90 % выборки лучшие методы

достигают высокого значения меры

1

F

для пола пользователя и возраста (0,85 и

0,72). В работе [4] представлен комплексный метод, который помимо атрибутов

профиля использует наиболее информативные признаки из текстов сообщений

пользователя. В ней достигнута высокая доля правильных ответов по предсказа-

нию отдельных атрибутов пользователя (пола и возраста) — 89 %.

В исследовании [5] был применен подход, основанный на выделении сооб-

ществ. При условии, что известна информация о значении некоторого атрибута

для 20 % пользователей, для остальных пользователей доля правильных ответов о

значении этого атрибута составила 80 %. В качестве социального графа в работе

использовались подграфы социальной сети Facebook профессорско-препода-

вательского состава и учащихся двух университетов. Однако, как отмечено в [2],

исследование общего графа социальной сети для предсказания профилей неэф-

фективно. Более разумный подход основан на анализе графа ближайшего окру-

жения пользователя (

ego-network

).

Методы, основанные на анализе предпочтений пользователей требуют более

разностороннюю информацию о пользователях сети, помимо их связей и атрибу-

тов. Например, в работе [6] атрибуты профиля предсказываются по музыкальным

предпочтениям, а в исследовании [7] — по положительным оценкам записей дру-

гих пользователей («лайкам»). Алгоритм PGPI, представленный в [8], позволяет

предсказать некоторые атрибуты профиля с долей правильных ответов более

90 %. При этом алгоритм использует ограниченное количество информации (так

называемых фактов) и, кроме атрибутов пользователей, сведения об их членстве