Браузерный тулбар можно встретить на компьютере достаточно часто. Но общее количество установленных тулбаров установить достаточно сложно. В статье показана попытка оценки аудитории браузерных тулбаров, проведенная автором.
Задача
Оценить количество пользователей тулбаров Яндекса, Google, Mail.ru и Rambler.
Описание методики расчета.
Общий принцип следующий. При посещении любого сайта браузер пользователя передает серверу HTTP-запрос на получение той или иной страницы. В запросе передается поле User-Agent, в котором записывается информация о браузере и операционной системе, установленных на компьютере пользователя. Зачастую, после установки тулбара в браузере поле User-Agent меняется — в нем появляется идентификатор, по которому видно, что за тулбар установлен в браузере. Теперь если взять сайт с достаточно большой аудиторией, посчитать по его логам доли посетителей с установленными тулбарами разных порталов, а затем экстраполировать эти доли на российскую интернет-аудиторию, то получим искомую оценку количества пользователей тулбаров.
Шаг 1. Определяем идентификаторы.
Для начала нужно понять, какие идентификаторы добавляют тулбары в поле User-Agent:
- Яндекс Бар добавляет в User-Agent строчку вида YB/5.1.1, но только при запросе в домене yandex.ru или его поддоменах. То есть в логах любых неяндексовских сайтов, получить информацию об установленных Яндекс Барах не получится. Видимо, это такая защита информации, чтобы конкуренты не могли оценить количество пользователей тулбаров Яндекса.
- Google.Toolbar добавляет в User-Agent строчку вида GTB7.1.
- Спутник@Mail.ru добавляет в User-Agent строчку вида sputnik 2.2.0.34 или MRSPUTNIK 2, 3, 0, 216 в зависимости от браузера (кроме браузера Safari под MacOS, в котором User-Agent после установки тулбара не меняется).
- Rambler.Ассистент никак не помечает User-Agent вообще. Его как и Яндекс.Бар отследить по логам не получится.
Итак, по логам некоторого наблюдаемого сайта можно будет найти пользователей тулбаров Google (для браузеров Internet Explorer и Firefox) и Mail.ru (браузеры Internet Explorer, Firefox и Opera).
Нужно также отметить, что установленный в браузере тулбар не обязательно реально используется. Пользователь может отключить тулбар, не удаляя его — в этом случае он исчезнет из панели браузера, но идентификатор тулбара по-прежнему будет присутствовать в поле User-Agent.
Шаг 2. Считаем количество посетителей по идентификаторам тулбаров.
Я взял логи Afisha.ru за июль. 3,5 млн посетителей в месяц — достаточно репрезентативная выборка. Дальше последовательность такая:
- Из общего лог-файла с помощью cygwin я выделил запросы, в которых прописаны куки __utma Google Analytics. Затем из этих запросов вытащил ту часть куки __utma, в которой хранятся идентификаторы уникальных посетителей, и посчитал сколько таких уникальных идентификаторов получилось за месяц. Всего их насчиталось 2,6 млн — это меньше, чем общий охват сайта, потому что в это число не входят пользователи с заблокированными куками, а также новые посетители, просмотревшие за месяц только одну страницу сайта.
- Из общего лог-файла опять с помощью cygwin я выделил те запросы, в поле User-Agent которых содержатся идентификаторы тулбаров — отдельно Google, отдельно Mail.ru и отдельно те запросы, в которых присутствуют одновременно и Google и Mail.ru.
- Каждую группу запросов, получившуюся в предыдущем пункте, я дополнительно препарировал еще и отдельно по разным браузерам, чтобы потом можно было сравнивать не просто количество пользователей с тем или иным тулбаром, но еще и с тем или иным браузером.
- Из каждой получившейся группы запросов я выделил __utma куки, из которых, в свою очередь, выделил идентификаторы посетителей и пересчитал их количество. Получилась такая картинка:
Тулбар Браузер Уникальных идентификаторов по __utma кукам Доля Весь сайт 2 600 668 100% Спутник@Mail.ru Все браузеры 251 111 9,7% MSIE 138 718 5,3% Firefox 96 563 3,7% Opera 15 917 0,6% Google.Toolbar Все браузеры 223 650 8,6% MSIE 202 000 7,8% Firefox 21 770 0,8% Спутник@Mail.ru и Google.Toolbar одновременно Все браузеры 51 426 2,0% MSIE 48 283 1,9% Firefox 3 207 0,1%
Шаг 3. Оцениваем количество пользователей тулбаров в России
Прежде чем экстраполировать полученные доли на всю российскую интернет-аудиторию нужно ввести два дополнительных предположения-упрощения:
- Предполагаем, что распределение тулбаров равномерное по географии, полу, возрасту и социальному статусу пользователей Afisha.ru.
- Месячная аудитория Afisha.ru по куки-ориентированным счетчикам (GA, Mail.ru) с небольшой погрешностью совпадает с данными панельного исследования TNS Web Index. Предполагаем, что доли тулбаров-браузеров по счетчикам равны долям пользователей по панельным исследованиям.
Если принять эти два предположения, а также считать месячную аудиторию Интернета в России равной 27,2 млн человек (данные TNS Web Index, июль 2010), получаем такие абсолютные оценки количества пользователей тулбаров:
Тулбар | Браузер | Российских пользователей (млн. человек) |
---|---|---|
Спутник@Mail.ru | Все браузеры | 2,63 |
MSIE | 1,45 | |
Firefox | 1,01 | |
Opera | 0,17 | |
Google.Toolbar | Все браузеры | 2,34 |
MSIE | 2,11 | |
Firefox | 0,23 |
Результат исследования пользователей тулбаров
Рассчитать оценку для тулбаров Яндекса и Rambler не получилось с помощью выбранной методики. Про Яндекс.Бар могу выдвинуть предположение, что его аудитория должна быть минимум вдвое больше, чем у Спутника@Mail.ru, просто учитывая разницу в разы между аудиториями отдельных проектов, которые выносятся в тулбар (поиска, карт, погоды и других) у Яндекса и Мэйла.
Автор: Михаил Самборский
P.S. Если вы хотите научиться проводить более сложные вычисления, то рекомендую сперва хорошо изучить теорию вероятностей. Книги этой библиотеки вам в помощь.