Оценка аудитории браузерных тулбаров

Количество российских пользователей тулбаров,

Оценка аудитории браузерных тулбаров

Браузерный тулбар можно встретить  на компьютере  достаточно часто. Но общее количество установленных тулбаров установить достаточно сложно. В статье показана попытка оценки аудитории браузерных тулбаров, проведенная автором.

Задача
Оценить количество пользователей тулбаров Яндекса, Google, Mail.ru и Rambler.

Описание методики расчета.

Общий принцип следующий. При посещении любого сайта браузер пользователя передает серверу HTTP-запрос на получение той или иной страницы. В запросе передается поле User-Agent, в котором записывается информация о браузере и операционной системе, установленных на компьютере пользователя. Зачастую, после установки тулбара в браузере поле User-Agent меняется — в нем появляется идентификатор, по которому видно, что за тулбар установлен в браузере. Теперь если взять сайт с достаточно большой аудиторией, посчитать по его логам доли посетителей с установленными тулбарами разных порталов, а затем экстраполировать эти доли на российскую интернет-аудиторию, то получим искомую оценку количества пользователей тулбаров.

Шаг 1. Определяем идентификаторы.

Для начала нужно понять, какие идентификаторы добавляют тулбары в поле User-Agent:

  • Яндекс Бар добавляет в User-Agent строчку вида YB/5.1.1, но только при запросе в домене yandex.ru или его поддоменах. То есть в логах любых неяндексовских сайтов, получить информацию об установленных Яндекс Барах не получится. Видимо, это такая защита информации, чтобы конкуренты не могли оценить количество пользователей тулбаров Яндекса.
  • Google.Toolbar добавляет в User-Agent строчку вида GTB7.1.
  • Спутник@Mail.ru добавляет в User-Agent строчку вида sputnik 2.2.0.34 или MRSPUTNIK 2, 3, 0, 216 в зависимости от браузера (кроме браузера Safari под MacOS, в котором User-Agent после установки тулбара не меняется).
  • Rambler.Ассистент никак не помечает User-Agent вообще. Его как и Яндекс.Бар отследить по логам не получится.

Итак, по логам некоторого наблюдаемого сайта можно будет найти пользователей тулбаров Google (для браузеров Internet Explorer и Firefox) и Mail.ru (браузеры Internet Explorer, Firefox и Opera).

Нужно также отметить, что установленный в браузере тулбар не обязательно реально используется. Пользователь может отключить тулбар, не удаляя его — в этом случае он исчезнет из панели браузера, но идентификатор тулбара по-прежнему будет присутствовать в поле User-Agent.

Шаг 2. Считаем количество посетителей по идентификаторам тулбаров.

Я взял логи Afisha.ru за июль. 3,5 млн посетителей в месяц — достаточно репрезентативная выборка. Дальше последовательность такая:

  1. Из общего лог-файла с помощью cygwin я выделил запросы, в которых прописаны куки __utma Google Analytics. Затем из этих запросов вытащил ту часть куки __utma, в которой хранятся идентификаторы уникальных посетителей, и посчитал сколько таких уникальных идентификаторов получилось за месяц. Всего их насчиталось 2,6 млн — это меньше, чем общий охват сайта, потому что в это число не входят пользователи с заблокированными куками, а также новые посетители, просмотревшие за месяц только одну страницу сайта.
  2. Из общего лог-файла опять с помощью cygwin я выделил те запросы, в поле User-Agent которых содержатся идентификаторы тулбаров — отдельно Google, отдельно Mail.ru и отдельно те запросы, в которых присутствуют одновременно и Google и Mail.ru.
  3. Каждую группу запросов, получившуюся в предыдущем пункте, я дополнительно препарировал еще и отдельно по разным браузерам, чтобы потом можно было сравнивать не просто количество пользователей с тем или иным тулбаром, но еще и с тем или иным браузером.
  4. Из каждой получившейся группы запросов я выделил __utma куки, из которых, в свою очередь, выделил идентификаторы посетителей и пересчитал их количество. Получилась такая картинка:
    ТулбарБраузерУникальных идентификаторов по __utma кукамДоля
    Весь сайт2 600 668100%
    Спутник@Mail.ruВсе браузеры251 1119,7%
    MSIE138 7185,3%
    Firefox96 5633,7%
    Opera15 9170,6%
    Google.ToolbarВсе браузеры223 6508,6%
    MSIE202 0007,8%
    Firefox21 7700,8%
    Спутник@Mail.ru и Google.Toolbar одновременноВсе браузеры51 4262,0%
    MSIE48 2831,9%
    Firefox3 2070,1%

Шаг 3. Оцениваем количество пользователей тулбаров в России

Прежде чем экстраполировать полученные доли на всю российскую интернет-аудиторию нужно ввести два дополнительных предположения-упрощения:

  1. Предполагаем, что распределение тулбаров равномерное по географии, полу, возрасту и социальному статусу пользователей Afisha.ru.
  2. Месячная аудитория Afisha.ru по куки-ориентированным счетчикам (GA, Mail.ru) с небольшой погрешностью совпадает с данными панельного исследования TNS Web Index. Предполагаем, что доли тулбаров-браузеров по счетчикам равны долям пользователей по панельным исследованиям.

Если принять эти два предположения, а также считать месячную аудиторию Интернета в России равной 27,2 млн человек (данные TNS Web Index, июль 2010), получаем такие абсолютные оценки количества пользователей тулбаров:

ТулбарБраузерРоссийских пользователей (млн. человек)
Спутник@Mail.ruВсе браузеры2,63
MSIE1,45
Firefox1,01
Opera0,17
Google.ToolbarВсе браузеры2,34
MSIE2,11
Firefox0,23

Результат исследования пользователей тулбаров

Количество российских пользователей тулбаров,

Количество российских пользователей тулбаров, млн. человек.

Рассчитать оценку для тулбаров Яндекса и Rambler не получилось с помощью выбранной методики. Про Яндекс.Бар могу выдвинуть предположение, что его аудитория должна быть минимум вдвое больше, чем у Спутника@Mail.ru, просто учитывая разницу в разы между аудиториями отдельных проектов, которые выносятся в тулбар (поиска, карт, погоды и других) у Яндекса и Мэйла.

Автор: Михаил Самборский

 

P.S. Если вы хотите научиться проводить более сложные вычисления, то рекомендую сперва хорошо изучить теорию вероятностей. Книги этой библиотеки вам в помощь.

 

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *