6個要點，打造有效的A/B 測試

管理者十分看重市場營銷的價值，花費大量的精力投入到A/B測試的研究中，但是收效甚微。究竟是什麼原因導致了一場垃圾A/B測試，我們又該如何改進呢，看看筆者是怎麼說的吧。

在這個以數字爲先的廣告世界，許多領導者都渴望將營銷、市場作爲一門科學來管理。於是，他們用精確、測量、數據這些科學的字眼來說話，他們聘請專業人士，他們教團隊用結構化的實驗來驗證他們的假設……

然而，除了十分專業的產品經理以外，大多數人並不知道如何用科學、正面的方法論去研究A/B測試的問題，儘管他們進行了所有“成功”的A/B測試，但對於具體的業務指標並沒有多大改善。

爲什麼會這樣呢？相關人員到底在A/B測試中學到什麼？

我認爲，從市場營銷的角度來談，在設計一輪A/B測試時，必須要記住以下六個要點：

一、統計顯著性

雖然這幾個字看上去毫無趣味，但大多數營銷人員不能正確定義統計的意義。

當我們開始一個A/B測試——“我正在測試的廣告之間沒有性能差異。”

然後，我們運行測試並收集數據，我們希望這些數據將反饋給我們信息，並得出相反的結論，即存在性能差異。

但從技術上講，問題是——“假設最初的假設成立，任何性能上的差異都是由隨機因素造成的，那麼能觀察到實際差異的可能性有多大？”

所以，計算p值很棘手，但需要理解的重要一點是：p值越低，我們就越有信心得出我們測試的廣告之間存在真正差異的結論。具體地說，p值爲0.05意味着有5%的可能性，觀察到的性能差異將由於純粹的隨機因素而產生。

然而重要的是，要學會理解這只是一個社會慣例所使用的標籤而已。在一個數據匱乏、沒有電腦的時代，這可以說是一個合理的標準，但在今天的世界，它可能已經被打破了。

二、統計顯著性≠實際顯著性

統計顯著性分析雖然可以幫助市場人員評估廣告之間是否存在性能差異，但它並沒有說明這種差異在實際應用中有多大或有多重要。有了足夠的數據，無關緊要的差異可被視爲“具有統計意義”。

例如：假設你用兩個稍微不同的廣告運行一個A/B測試。

你爲每個廣告投放了1,000,000個展示，然後你發現版本A獲得1,000個展示，而版本B獲得1,100個展示。使用相關的A/B測試計算方法，你將看到這是一個“具有統計意義”的結果——p值爲0.01，遠遠超過通常的0.05閾值。

但這一結果是否具有實際意義？

數字代表着一個進步，但在大多數營銷環境中很難改變遊戲規則。記住，有時候需要成千上萬次的投放才能得出這個結論，而這個結論本身就很費錢。

我對營銷領導者的實際建議是，要學會接受這樣的事實——市場與產品不同，A/B測試中微小的調整可能很難會產生巨大影響。

要學會重新定義測試在市場營銷中所扮演的角色，使你的團隊成員將重要性分析理解爲一種比較有意義的理念與方法，而不是定義成功。

三、謹防“偏見”

如何理解那些我們讀過的、並與我們的團隊分享過的、看起來微不足道的A/B測試帶來的巨大性能收益的文章呢？

比如：“如何添加逗號提高30%的收入”“這個表情符號改變了我的生意”等等。

雖然肯定會發生這樣的情況，但它們的數量和距離都比互聯網搜索所能讓你相信的要少得可憐。

在市場營銷領域，這個問題被一些因素複雜化了：人們總是很輕易地認爲通過一些A/B測試，輕鬆取勝就在眼前。所以，他們當然不會公佈那些沒有產生有趣結果的實驗，也就容易造成一種分佈偏見。我們不會看到或談論所有A/B測試的結果，更何況一些測試運行的結果根本就是無關緊要的。

所以，請記住，一些看起來好得令人難以置信的結果很可能是真的。但你需要這樣問自己：他們進行了多少次實驗才得出如此驚人的結果?

不要因爲要複製有價值的結果而感到壓力。相反，要把注意力集中在不引人注目但更重要的工作上，測試有意義的不同策略，並尋找具有實際意義的重大結果——這纔是真正的價值所在。

四、小心p-hacking

數據是營銷人員最好的朋友，但它同時還帶着一個警告標籤，因爲你擁有的數據維度越多，你就越有可能以某種方式陷入被稱爲“p-hacking”的反模式。p-hacking指的是數據分析能夠從純噪聲中產生看似“具有統計意義”的結果的某些方式。

最明目驚心的p-hacking形式，不過是不斷地進行實驗，直到得到你想要的結果。記住，p值爲0.05意味着觀察到的差異有5%的機率是隨機產生的，如果你將同一個實驗進行20次，你應該期望僅憑偶然就能得到一個“顯著”的結果。如果你有足夠的時間和動力，你可以有效地保證在某一時刻取得顯著的成果。衆所周知，製藥公司爲了讓一種藥物獲得FDA的批准會做這樣的事情，但這可不是什麼好事。

大多數營銷團隊永遠不會做這麼愚蠢的事情，但有一些更微妙的p-hacking形式需要注意。

例如：你針對受衆運行兩個不同的廣告。但是，當高層次的結果被證明不顯著時，通常會發生的情況是——我們對數據進行更深入的挖掘，以尋找更有趣的發現。

也許如果我們只看女性，我們會發現不同？我們看看不同年齡段的人呢？看看iPhone和Android用戶……

這種方式很容易分割數據，但通常被認爲是一種很好的實踐方法。

在科學領域，這個問題已經通過一種叫做“預註冊”的實踐得到了解決。在這種實踐中，研究人員公佈他們的研究計劃，包括他們希望進行的數據分析，以便他們研究的消費者能夠相信，結果不是在電子表格中合成的。而在市場營銷中，我們通常不會公佈我們的結果，但是我們應該應用這些最佳實踐。

五、在ROI 中包含實驗成本

生活中一個經常被忽視的事實是——A/B是免費的。但其實，它們需要花時間、精力和金錢來設計和執行。

大多數A/B測試關注的是創造性，因爲廣告性能在很大程度上是由創造性驅動的。大多數寫在A/B測試上的東西就像從天上掉下來的創意一樣，你所需要做的就是測試，以確定哪種效果最好。

例如：假設你的總營銷預算爲25,000美元，而你正在嘗試決定是在單個廣告上花費2千美元，還是在5種不同的變體廣告上花費5萬美元。如果我們假設你需要在每個廣告變體上花費1美元，來測試其性能作爲A/B測試的一部分，那麼你需要獲勝的廣告比A/B測試的基線性能至少高出20％纔是值得的。

20%可能聽起來並不多，但是任何做過重要A/B測試的人都知道，這樣的收益並不容易獲得，特別是如果你在一個相對成熟的環境中進行操作。所以，請記住，你的目標是最大化廣告投資回報率，而不僅僅是爲了實驗而實驗。預先運行ROI計算，以確定你需要多大程度的改進，才能使你的A/B測試物有所值。

六、寫在最後

科學的營銷方法對該領域具有不可思議的價值。但營銷人員經常使用的一些方法和工具，可能只是膚淺的理解，最終浪費了大量的時間、精力和金錢。爲了避免重複這些錯誤，並在相關問題上取得一些有價值的進步，相關人員必須學會從複雜或習以爲常的錯誤中，不斷吸取教訓，改善並提升。

原文作者：Nathan Labenz

原文地址：https://martechtoday.com

譯者：研如玉，編譯過程中有所刪減。

本文由 @研如玉翻譯發佈於人人都是產品經理，未經許可，禁止轉載

題圖來自Unsplash，基於CC0協議

聲明：該文觀點僅代表作者本人，搜狐號系信息發佈平臺，搜狐僅提供信息存儲空間服務。

6個要點，打造有效的A/B 測試

热门新闻

周热门

6個要點，打造有效的A/B 測試

有哪些反人類的設計目前還正在沿用？

設計師有哪些與眾不同的 PC 操作習慣和細節？

作為一名設計師，大家在工作中都會遇到哪些分分鐘讓自己氣炸的事情呢？

為什麼中國設計的武器都感覺不到高科技感。?

我在糾結選計算機科學與技術專業還是風景園林設計。。？

保友的椅子真的有那麼好嗎？

對於一個設計初學者來說，是從平面設計入門好還是從美工入門好？

對於某一問題或規律的研究有沒有盡頭？

根據科學，女性能夠被男性的什麼所吸引？

袁隆平團隊培育出的鹽鹼地水稻和海水稻對於我們普通人來說有哪些意義？

什麼是「物理意義」？

宇宙中發生事什麼事會令你震驚？

人類為什麼要吃東西？用科學方式回答？

單方或者偏方是否屬於中醫范籌?

請問國內有哪些大學開設了漢語言文學創意寫作這個專業呢？

热门新闻

周热门