Интернет предоставляет широкие возможности, но как минимум одна из них — анонимность — не всегда оправдывает ожидания. В стремлении уберечь свою жизнь от пытливых глаз пользователи обращаются к Tor и аналогичным сервисам, однако это не останавливает ФБР и исследователей, которые упорно ищут способ раскрыть личность участников подобных сетей.

В открытом Интернете можно найти массу подсказок в отношении увлечений пользователей и посещаемых ими страниц. Эти данные прилежно собирают рекламодатели и распространители целевой рекламы, отображаемой в браузере. Группа университетских исследователей из Принстона и Стэнфорда пошла еще дальше, попытавшись установить личность пользователя на основании кликов по ссылкам в микроблогах Twitter.

Чтобы проверить свою концепцию, академики создали расширение для десктопного Chrome — модуль Footprints, способный отыскивать в истории браузера активированные Twitter-ссылки. Этот инструмент отсылал исследователям все находки, сохраненные в браузере за последние 30 дней, при этом пользователю предоставлялась возможность просмотреть список перед отправкой. Проанализировав ссылки, Footprints менее чем за минуту выдавал 15 профилей Twitter, являющихся наиболее вероятными кандидатами на соответствие, и после этого сам себя удалял.

«Нас интересовал объем информации, сливаемой во время веб-поиска, — говорит Шарад Гоэл (Sharad Goel), доцент кафедры теории управления в Стэнфордском университете. — Наша цель — повышение осведомленности и просвещение. С нашей стороны это скорее поучительная демонстрация. Мы не пытаемся поделиться новым инструментом, а по большому счету просто хотим прояснить положение дел».

Инструмент, подобный Footprints, по словам Гоэла, позволит бизнес-структурам, собирающим анонимизированную информацию о пользователях, сопоставить ее с Twitter-трафиком и сделать более обоснованные предположения в отношении предпочтений конкретных объектов.

В своей записи на сайте Freedom to Tinker студентка Джессика Су (Jessica Su), принявшая участие в исследовании, отметила, что круг общения каждого человека уникален и состоит из членов семьи, друзей и коллег по работе, что дает различимую группу ссылок в ленте новостей Twitter-профиля.

«Располагая лишь набором веб-страниц, которые посетил субъект, мы ищем близкое сходство в лентах социальной сети и в итоге получаем список наиболее вероятных кандидатов в создатели этой истории посещений сайтов, — рассказывает Су. — Таким образом, мы можем связать реальную личность с почти полным набором ссылок, по которым она заходила, в том числе со ссылками, никогда не публиковавшимися в социальных сетях. Для этого метода достаточно, что пользователь просто кликает по ссылкам, публикации контента при этом не требуется».

По словам университетских исследователей, во время работы им пришлось столкнуться с двумя проблемами. Прежде всего нужно было разработать систему количественных оценок сходства социальной ленты новостей и истории веб-поиска. Это с виду несложная задача, однако у некоторых пользователей Twitter оказалась уйма читателей, часть которых к тому же могут составлять боты. Гоэл с сожалением отметил, что такие профили пришлось отбраковать из-за слишком широких связей и обилия ссылок, которые могли бы исказить общий результат.

«Мы исходили из стилизованной, вероятностной модели поведения в ходе веб-серфинга и вычисляли правдоподобие наблюдаемой истории браузера для пользователя с конкретной лентой новостей, — пишет Су. — Как оказалось, этот метод примерно эквивалентен масштабированию ссылок в браузере, присутствующих также в социальной ленте, с учетом общего размера этой ленты».

Выбор Twitter для демонстрации объясняется тем, что его новостные ленты по большей части открыты. По словам Су, число лент для поиска совпадений было эвристически сокращено, а затем они измерялись на сходство, и конечные результаты фиксировались.

Гоэл надеется, что Footprints еще верно им послужит, так как исследователи продолжают собирать данные и оттачивать демонстрацию. С его слов, полноценный отчет об исследовании можно ожидать через одну-две недели.

Категории: Аналитика, Кибероборона