Предсказание атрибутов профиля пользователя социальной сети…
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2017. № 2
67
В настоящее время существует несколько методов решения данной пробле-
мы. Большинство из них можно отнести к одному из четырех подходов:
•
перенос атрибутов соседних вершин путем простого голосования или
по другому правилу;
•
методы, основанные на машинном обучении;
•
методы, основанные на выделении сообществ;
•
предсказание атрибутов по предпочтениям пользователя.
В качестве примеров методов, основанных на переносе атрибутов, можно
привести работы [1, 2]. В [1] продемонстрирована возможность предсказания
местоположения пользователя сети Twitter по мажоритарному признаку сосе-
дей. Предложенный метод показал довольно высокие (до 86 %) значения точно-
сти, но низкую (менее 20 %) полноту. В исследовании [2] был предложен алго-
ритм предсказания мест работы и обучения, местоположение пользователя, ко-
торый дает 60…68 % правильных ответов на выборке графов ближайшего
окружения пользователей из социальной сети LinkedIn.
Результаты предсказания в работах, основанных на машинном обучении,
сильно зависят от качества обучающей выборки. В исследовании [3] был проведен
сравнительный анализ нескольких методов машинного обучения для предсказа-
ния пола и возраста семи миллионов пользователей сотового оператора по дан-
ным о звонках и SMS-сообщениях. При обучении на 90 % выборки лучшие методы
достигают высокого значения меры
1
F
для пола пользователя и возраста (0,85 и
0,72). В работе [4] представлен комплексный метод, который помимо атрибутов
профиля использует наиболее информативные признаки из текстов сообщений
пользователя. В ней достигнута высокая доля правильных ответов по предсказа-
нию отдельных атрибутов пользователя (пола и возраста) — 89 %.
В исследовании [5] был применен подход, основанный на выделении сооб-
ществ. При условии, что известна информация о значении некоторого атрибута
для 20 % пользователей, для остальных пользователей доля правильных ответов о
значении этого атрибута составила 80 %. В качестве социального графа в работе
использовались подграфы социальной сети Facebook профессорско-препода-
вательского состава и учащихся двух университетов. Однако, как отмечено в [2],
исследование общего графа социальной сети для предсказания профилей неэф-
фективно. Более разумный подход основан на анализе графа ближайшего окру-
жения пользователя (
ego-network
).
Методы, основанные на анализе предпочтений пользователей требуют более
разностороннюю информацию о пользователях сети, помимо их связей и атрибу-
тов. Например, в работе [6] атрибуты профиля предсказываются по музыкальным
предпочтениям, а в исследовании [7] — по положительным оценкам записей дру-
гих пользователей («лайкам»). Алгоритм PGPI, представленный в [8], позволяет
предсказать некоторые атрибуты профиля с долей правильных ответов более
90 %. При этом алгоритм использует ограниченное количество информации (так
называемых фактов) и, кроме атрибутов пользователей, сведения об их членстве