AB тест: 5 главных ошибок. Как их избежать?

Моя знакомая — хорошая жена и  предприниматель, начинающий постигать азы  e-commerce — недавно заявила, что проводит на своем муже AB тест рецепта запеканки. Я насторожилась: «А как ты его проводишь?». «Ну как — во вторник готовлю по одному рецепту, в четверг — по второму. А потом сравниваю реакцию».

vibor

Я испугалась не на шутку. Не за семейную ситуацию моей знакомой, а за судьбу ее e-commerce проекта. Поговорив с ней поподробнее я поняла, что она стала жертвой очень грубого понимания того, что такое AB тест и как его проводить. И таких, как моя подруга — сотни. Тема АВ тестирования стала настолько популярной, что пора срочно поговорить об основных ошибках, которые способны  лишить эту полезную технику  какого-либо смысла.

Корни метода

Методике, которую в web-дизайне и e-commerce называют AB-тест — на самом деле уже более сотни лет, а корни ее вообще уходят к Рене Декарту и заложенным им основам картезианского мышления. Именно Декарт понял, что любую мысль надо проверять и заложил методологию подобных проверок. Эта методология и лежит в основе  AB тестирования. Она же используется при  любом другом научном эксперименте.

В самом простом варианте эта методология состоит из следующих шагов:

  1. Сформулируйте гипотезу. Это и есть мысль, которую надо проверить. Например: письма, попадающие в почтовый ящик до 11 утра, получают лучший процент открытий, чем письма, доставленные после 11.
  2. Создайте две группы испытуемых (в нашем случае — получателей писем) — экспериментальную и контрольную.
  3. Проведите эксперимент на обеих группах, изменив только одно условие — то самое, влияние которого на испытуемых вы хотите проверить. В нашем случае — разошлите половине пользователей письма в 8 утра, а второй половине — например, в 12.
  4. Дождитесь результатов. Если между поведением двух групп есть существенное различие, то ваша гипотеза подтвердилась.

Казалось бы, простые правила. Однако даже небольшие их нарушения приводят к фатальному искажению результатов. И вот какие ошибки допускаются при AB тестировании чаще всего.

5 ошибок при проведении АB тестов

Ошибка#1 Отсутствие гипотезы

Как не надо: Многие клиенты просят тестировать разные темы рассылки. Обычно это делается так —  сначала вы создаете две небольшие выборки из своей базы пользователей, отправляете им письмо с двумя разными темами, ждете результата, а затем рассылаете письмо с «победившей» темой по всей остальной базе. У таких сервисов, как Mail Chimp, для этого даже есть специальный функционал. Но хотя подобные акции могут положительно сказаться на открываемости одного письма, такой тест вас ничему не научит.

Как надо: Чтобы тестирование принесло настоящую пользу, вам нужно сформулировать два принципиально разных подхода к созданию тем и протестировать их целой серией рассылок. Например, на что лучше реагируют пользователи из определенного сегмента — на креативные темы, разжигающие любопытство, или на конкретные предложения с указанием цены продукта? Сформулировав гипотезу таким образом, вы сможете не просто сделать более эффективным одно письмо, но и определить  стратегию на будущее. Этот принцип касается тестирования любых других элементов вашего сайта или кампании — сначала определяемся с гипотезой, а уже затем ее проверяем.

Вывод: Вы вполне можете использовать этот подход локально: чтобы повысить открываемость одного письма. Но если вы хотите определить стратегию рассылки, сформулируйте гипотезу, которую хотите проверить. 

Ошибка #2 Слишком маленькая выборка

Как не надо:  Если размер вашей базы 200 человек, то проводить AB тесты в принципе можно. Но осторожно. И вот что вам нужно знать. Против вас работает так называемый принцип статистической достоверности. При таком небольшом количестве испытуемых слишком высок фактор случайности. Разница в 2-3 конверсии на 100 человек легко может быть связана с личными обстоятельствами конкретных людей, и поэтому на ее основе нельзя сделать вывод о том, что в контрольной группе какой-то фактор (интерфейс или тема) сработал лучше. А вот если результаты отличаются прямо в несколько раз (например, в контрольной группе у вас 3 конверсии, а в экспериментальной — 30) — то такой результат может быть значимым даже для пары сотен юзеров.

Как надо:  Так какого размера должна быть выборка, чтобы ее можно было считать репрезентативной? Репрезентативность выборки зависит в первую очередь от количества конверсий. Другими словами, от того, какие различия между двумя группами показал ваш тест. Например, если даже в обеих группах было всего по  100 человек, но  в первой группе покупки совершили 30 человек, а во второй — один — ваши результаты считаются значимыми.

Чтобы это проверить, маркетологи пользуются специальными формулами. Вот здесь вы найдете калькулятор, с помощью которого легко можете проверить свой результат на значимость. Введите размер экспериментальной и контрольной групп, количество конверсий в первом и втором варианте и нажмите «посчитать». В последней строке вы увидите ответ на вопрос, можно ли доверять полученному результату.

2015-09-21 09-49-35 Скриншот экрана

Вывод: Если у вас маленькая база, тщательно проверяйте результат по формуле. Чтобы проверить результат на значимость, посчитайте количество конверсий.

Ошибка#3 Вы тестируете слишком много факторов одновременно

Как не надо: Вы пытаетесь провести AБ тестирование e-mail рассылки. И рассылаете двум группам письма с двумя разными темами и двумя разными call-to-action. Вам кажется, что все в порядке – результаты тестирования темы будут вам понятны из данных об открытых письмах, а эффективность call-to-action вы проверите, посмотрев на процент кликов. Но пользователь — очень сложная машинка, и весьма вероятно, что тема рассылки оказала влияние на его восприятие call-to-action. Если вы теперь возьмете «победившую» в тесте тему из одного письма, а call-to-action — из другого — результат может вновь измениться.

Как надо: Любой AB тест должен касаться только  одного фактора. Например:

  • подход к созданию темы рассылки,
  • время отправки письма,
  • реакция пользователей на определенный размер скидки,
  • цвет фона
  • надпись на  кнопке.

Вывод: Выберите только один фактор для тестирования.

Ошибка#4 Тест из серии «до» и «после»

Как не надо: Иногда очень велик соблазн просто изменить что-нибудь (цвет страницы или кнопки, шрифт или текст надписи) и измерить, как это изменение повлияло на конверсии. Умоляю вас, не делайте этого. Если даже вы и получите существенную разницу в поведении юзеров в несколько процентных пунктов, все равно вы никогда не узнаете чем она вызвана — тем, что вы сменили цвет кнопки «купить»? Или изменением погоды? Или тем, что у вашего конкурента вчера с сайта пропал любимый всеми товар?

Как надо: Если вы действительно хотите понять, какая надпись на кнопке, картинка или размер скидки работают лучше,  создавайте две альтернативные версии тестируемого фактора (например, цвета страницы), сначала рассчитайте, каким должен быть период тестирования и количество участников тестирования для получения достоверного результата.

Для этого разделяйте траффик на два потока, которые будут реагировать на варианты вашего материала одновременно, в одно и то же время суток, в один и тот же день недели. Тест нужно продолжать до тех пор, пока мы не «пропустим» через него достаточное количество пользователей. Нужное количество опять же считается по формулам. Для расчета можно пользоваться вот таким калькулятором.

  • В первой строке вводится ваша обычная конверсия,
  • во второй — процент разницы между группами,
  • в третьей — количество групп (обычно — 2),
  • в четвертой — количество посетителей в день,
  • в пятой — количество участников экспериментальной группе.

В итоге вы получаете параметры, необходимые для проведения значимого тестирования.

кальк

Вывод: Рассчитайте по формуле параметры достоверного теста.

 Ошибка#5 Случайная сегментация

Как не надо: Не забудьте оценить, насколько выборка, на которой вы проводите тест, отражает вкусы и устремления всей вашей аудитории? Например, вы создали новый лэндинг для нового продукта. И теперь хотите его протестировать. Для этого вы отправляете на него траффик через рассылку по своей базе. Вы мониторите клики и конверсии и проводите редизайн лэндинга.

В этот момент вы забыли одну вещь — пользователи из базы уже имеют опыт взаимодействия с вашим сайтом, продуктом и интерфейсом, а реакция новых посетителей на лэндинг может быть совершенно другой. Такая же ненамеренная сегментация может произойти, если вы начали тест, а ваш коллега траффик-менеджер как раз открыл для себя новый канал траффика или о вашем сайте написали в СМИ, и вы неожиданно получили новый поток посетителей, читающих именно это издание.

Как надо: Запуская АB тест, учитывайте все значимые факторы: недавнее обновление интерфейса, свежие упоминания вашего ресурса в СМИ, количество новых подписчиков в базе.

Вывод: Проводя тестирование, учитывайте факторы, которые могут повлиять на поведение ваших пользователей и осознанно сегментируйте ваших подписчиков.

Вывод:

Нет смысла тратить ценные ресурсы и траффик на тестирование непонятно чего или изменений, которые принесут вам разовое улучшение на 0,0007 процентов. AB тесты хороши тогда, когда вы используете их осознанно, то есть сначала формулируете гипотезы, а потом проверяете их. Тогда вы сможете отслеживать значимые факторы, их влияние на поведение пользователей и уверенно управлять своей контент-стратегией. Тогда АB тесты принесут вам ощутимую пользу.

Проводите тесты с учетом правил АB тестов,  о которых мы рассказали, и тогда, когда речь идет о принципиальных вещах.

Например:

  • какая цена вашего продукта является приемлемой,
  • где разместить ваш главный Call to Action,
  • в каком порядке должна быть размещена информация на лэндинге,
  • в какое время рассылка работает лучше,
  • какое оформление страницы больше нравится вашим пользователям.

 

 

 

 

Понравилась статья? Поделись с друзьями!