<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      注意,你所做的 A/B 實驗,可能是錯的!

      對于 A/B 實驗原理認知的缺失,致使許多企業(yè)在業(yè)務(wù)增長的道路上始終在操作一批“錯誤的 A/B 實驗”。這些實驗并不能指導(dǎo)產(chǎn)品的優(yōu)化和迭代,甚至有可能與我們的初衷背道而馳,導(dǎo)致“負增長”。

      在 A/B 實驗不斷走紅的今天,越來越多的企業(yè)開始意識到 A/B 實驗的重要意義,并試圖通過 A/B 實驗,前置性地量化決策收益,從而實現(xiàn)增長。然而,當你和其他業(yè)務(wù)伙伴談及 A/B 實驗時,你總能聽到這樣的論調(diào):

      “這事兒很簡單,做個實驗就行了。準備兩個版本,在不同渠道里發(fā)版,然后看看數(shù)據(jù)。”

      “把用戶按照 did(device_id)尾號奇偶分流進實驗組和對照組,然后看看數(shù)據(jù)表現(xiàn)。”

      不可否認,這部分企業(yè)的確走在前沿,初步擁有了 A/B 實驗的思維。然而令人遺憾的是,他們操作的所謂“A/B 實驗”,其實并不具備 A/B 實驗應(yīng)有的功效。

      更令人遺憾的是,他們似乎對此并不知曉。

      對于 A/B 實驗原理認知的缺失,致使許多企業(yè)在業(yè)務(wù)增長的道路上始終在操作一批“錯誤的 A/B 實驗”。這些實驗并不能指導(dǎo)產(chǎn)品的優(yōu)化和迭代,甚至有可能與我們的初衷背道而馳,導(dǎo)致“負增長”。

      因此,為了能夠更好地明白什么是 A/B 實驗,我們不妨先來了解幾種錯誤的 A/B 實驗。

      No1:用戶抽樣不科學(xué)

      典型表現(xiàn)

      “用戶抽樣不科學(xué)”是錯誤 A/B 實驗的第一宗罪。操作這種錯誤 A/B 實驗的企業(yè)常采取以下做法:

      實驗中,在不同的渠道/應(yīng)用市場中,發(fā)布不同版本的 APP/頁面,并把用戶數(shù)據(jù)進行對比;

      簡單地從總體流量中抽取 n%用于實驗,不考慮流量分布,不做分流處理(例如:簡單地從總體流量中任意取出 n%,按照 ID 尾號單雙號把用戶分成兩組)。

      錯在哪兒

      不同應(yīng)用市場/渠道的用戶常常帶有自己的典型特征,用戶分布具有明顯區(qū)別。對總流量進行“簡單粗暴”地抽樣也有著同樣的問題——分流到實驗組和對照組的流量可能存在很大的分布差異。

      實際上,A/B 實驗要求我們,盡可能地保持實驗組和對照組流量分布一致(與總體流量也需保持分布一致),否則得出的實驗數(shù)據(jù)并不具有可信性。

      為什么要保持分布一致呢?我們不妨來看一個問題:

      某大學(xué)由兩個學(xué)院組成。

      • 1 號學(xué)院的男生錄取率是 75%,女生錄取率 49%,男生錄取率高于女生;

      • 2 號學(xué)院男生錄取率 10%,女生錄取率 5%,男生錄取率同樣高于女生。問:綜合兩個學(xué)院來看,這所大學(xué)的總體錄取率是否男生高于女生?

      直覺上來說,許多人會覺得,男生錄取率總體上會高于女生。然而事實并不是這樣,讓我們來看看實際數(shù)字:

      從上表可以看出,盡管兩個學(xué)院男生錄取率都高于女生,但綜合考慮兩個學(xué)院的情況時,男生的總體錄取率卻要低于女生。這種現(xiàn)象在統(tǒng)計學(xué)中被稱為辛普森悖論。

      辛普森悖論由英國統(tǒng)計學(xué)家 E.H 辛普森于 1951 年提出。其主要內(nèi)容是:幾組不同的數(shù)據(jù)中均存在一種趨勢,但當這些數(shù)據(jù)組合在一起后,這種趨勢消失或反轉(zhuǎn)。其產(chǎn)生的原因主要是數(shù)據(jù)中存在多個變量。這些變量通常難以識別,被稱為“潛伏變量”。潛伏變量可能是由于采樣錯誤造成的。

      在 A/B 實驗中,如果實驗組和對照組的樣本流量分布不一致,就可能產(chǎn)生辛普森悖論,得到不可靠的實驗結(jié)果。

      分流是 A/B 實驗成功與否的關(guān)鍵點,在早期企業(yè)還不具備過硬研發(fā)能力情況下,想要真正做對 A/B 實驗,最佳方法是借助第三方實驗工具中成熟的分流服務(wù)。

      火山引擎 A/B 測試長期服務(wù)于抖音、今日頭條等頭部互聯(lián)網(wǎng)產(chǎn)品,分流服務(wù)科學(xué)可靠,并且能夠支撐億級 DAU 產(chǎn)品進行 Push 實驗,在高并發(fā)場景下保持穩(wěn)定,幫助我們從總體流量中更加均勻地分流樣本,使實驗更科學(xué)。

      No2:互斥層選擇錯誤

      典型表現(xiàn)

      接入了實驗工具,A/B 實驗就能做對了嗎?也不盡然。許多實驗者在進行實驗操作時,將有關(guān)聯(lián)性的實驗放置在不同的實驗互斥層上,導(dǎo)致實驗結(jié)果不可信。

      何謂“互斥層”?在火山引擎 A/B 測試中,“互斥層”技術(shù)是為了讓多個實驗?zāi)軌虿⑿校幌嗷ジ蓴_,且都獲得足夠的流量而研發(fā)的流量分層技術(shù)。

      假設(shè)我現(xiàn)在有 4 個實驗要進行,每一個實驗要取用 30%的流量才能夠得出可信的實驗結(jié)果。此時為了同時運行這 4 個實驗就需要 4*30%=120%的流量,這意味著 100%的流量不夠同時分配給這 4 個實驗。那么此時我只能選擇給實驗排序,讓幾個實驗先后完成。但這會造成實驗效率低下。試想一下,抖音每天有上千個實驗要進行,如果只能排隊挨號,抖音的實驗 schedule 恐怕要排個 10 年。

      那么有沒有辦法可以解決這個問題呢?

      有,就是使用互斥層技術(shù),把總體流量“復(fù)制”無數(shù)遍,形成無數(shù)個互斥層,讓總體流量可以被無數(shù)次復(fù)用,從而提高實驗效率。

      各互斥層之間的流量是正交的,你可以簡單理解為:在互斥層選擇正確的前提下,流量經(jīng)過科學(xué)的分配,可保證各實驗的結(jié)果不會受到其他互斥層的干擾。

      在選擇互斥層的時候,實驗者應(yīng)當要遵循的規(guī)則是:假如實驗之間有相關(guān)性,那么實驗必須置于同一互斥層;假如實驗之間沒有相關(guān)性,那么實驗可以置于不同互斥層。如果不遵循這一原則,那么 A/B 實驗就會出問題。

      錯在哪兒

      那么,問題究竟是出在了哪兒呢?

      對于實驗需求旺盛的企業(yè)來說,互斥層技術(shù)完美解決了多個實驗并行時流量不夠用的問題。然而,亂選互斥層會導(dǎo)致實驗結(jié)果不可信。為什么?舉個例子,現(xiàn)在我們想對購買頁面的購買按鈕進行實驗。

      我們作出兩個假設(shè):

      • 假設(shè) 1:將購買按鈕的顏色從藍色改為紅色,用戶購買率可以提高 3%;

      • 假設(shè) 2:將購買按鈕的形狀從方形改為圓形,用戶購買率可以提高 1.5%。

      針對上述兩個假設(shè),我們需要開設(shè)兩個實驗:一個針對按鈕顏色,一個針對按鈕形狀。兩個實驗均與購買按鈕有關(guān)系,具有明顯的關(guān)聯(lián)性。這兩組實驗是否可以放在不同互斥層上呢?

      **情況 1:相關(guān)實驗置于不同層 **
      如下圖,我們把兩個實驗分別放置在兩層上,同時開啟兩個實驗。此時用戶 A 打開了我們的購買頁面,進入到總體流量之中。在互斥層 1 里,用戶被測試按鈕顏色的實驗命中,進入實驗組 Red;在互斥層 2 里,用戶被測試按鈕形狀的實驗命中,進入實驗組 Round。

      由圖可知,用戶 A 將受到“按鈕顏色 Red”以及“按鈕形狀 Round”兩個策略影響,我們無法判斷究竟是哪個策略影響了該用戶的行為。換句話說,由于兩個實驗存在關(guān)聯(lián),用戶重復(fù)被實驗命中,實驗結(jié)果實際受到了多個策略的影響。這種情況下,兩個實驗的結(jié)果便不再可信了。

      **情況 2:相關(guān)實驗置于同一層 **
      換個思路,如果將上面的兩個實驗放置在同一層上,那么用戶在進入實驗后便只會被一個實驗命中。兩個實驗組均只受到一個策略影響,實驗結(jié)果可信。

      企業(yè)在進行 A/B 實驗時,工具是基礎(chǔ)設(shè)施,在實際業(yè)務(wù),我們還需要結(jié)合具體的實驗場景,進行正確的實驗設(shè)計。

      No3:不考慮是否顯著

      典型表現(xiàn)

      實驗結(jié)束后,只簡單地觀測實驗數(shù)據(jù)的漲跌,不考慮實驗結(jié)果是否顯著。

      錯在哪兒

      “顯著”是一個統(tǒng)計學(xué)用詞,為什么我們需要在評估實驗結(jié)果時引入統(tǒng)計學(xué)呢?

      我們已經(jīng)知道,A/B 實驗是一種小流量實驗,我們需要從總體流量中抽取一定量的樣本來驗證新策略是否有效。然而抽樣過程中,樣本并不能完全代表整體,雖然我們竭盡全力地進行隨機抽樣,但最終仍無法避免樣本和總體之間的差異。

      了解了這一前提我們就能明白,在 A/B 實驗中,如果只對數(shù)據(jù)進行簡單的計算,我們對于實驗結(jié)果的判斷很可能會“出錯”(畢竟我們通過實驗觀測得到的是樣本數(shù)據(jù),而不是整體數(shù)據(jù))。

      那么,有什么辦法去量化樣本與總體之間的差異對數(shù)據(jù)指標造成的影響呢?這就需要結(jié)合統(tǒng)計學(xué)的方法,在評估實驗結(jié)果時加入相應(yīng)的統(tǒng)計學(xué)指標,如置信度、置信區(qū)間、統(tǒng)計功效等。

      原則上,如果實驗結(jié)果不顯著(或說不置信),我們便不能判斷數(shù)據(jù)的漲/跌,是否是由實驗中采取的策略造成的(可能由抽樣誤差造成),我們也不能盲目地全量發(fā)布新策略/否定新策略。

      A/B 實驗中的統(tǒng)計學(xué)原理是一個較為龐大復(fù)雜的課題,介于篇幅,我們在此暫不做展開解釋。對這部分內(nèi)容感興趣的讀者也可持續(xù)關(guān)注「字節(jié)跳動數(shù)據(jù)平臺」,我們在后期會推出相應(yīng)內(nèi)容來為大家進行講解。需要明確的一點是:評估 A/B 實驗,絕不僅僅是比較下實驗組和對照組的數(shù)據(jù)高低這么簡單。

      在實驗結(jié)果評估方面,好的實驗平臺需要具備兩個特點:第一是可靠的統(tǒng)計策略,第二是清晰、完善的實驗報告。相較于市面上其他實驗工具,這兩個特點正是火山引擎 A/B 測試的優(yōu)勢所在。

      在統(tǒng)計策略方面,火山引擎 A/B 測試的統(tǒng)計策略長期服務(wù)于抖音、今日頭條等產(chǎn)品,歷經(jīng)打磨,科學(xué)可靠;在實驗報告方面,從概覽至指標詳情,火山引擎 A/B 測試依托于經(jīng)典統(tǒng)計學(xué)的假設(shè)檢驗方法,結(jié)合置信度、置信區(qū)間,幫助實驗者全方位的判斷實驗策略收益。

      作為互聯(lián)網(wǎng)公司的新寵,A/B 實驗確有其獨到之處,但淺顯的實驗認知、錯誤的實驗方法,可能會致使企業(yè)在增長的道路上“反向前行”。此處讓我們借用一句經(jīng)典的影視臺詞吧:“發(fā)生這種事,大家都不想的。”

      事實上,本文中所提及的“錯誤的 A/B 實驗”,只是最淺顯的 3 種,在產(chǎn)品增長的道路上,潛伏在一旁埋伏著實驗者的“大坑”還有很多,我們也會陸續(xù)教給大家如何“避坑”。

      關(guān)聯(lián)產(chǎn)品
      火山引擎 a/b 測試
      擺脫猜測,用科學(xué)的實驗衡量決策收益打造更好的產(chǎn)品,讓業(yè)務(wù)的每一步都通往增長。

      ?歡迎關(guān)注字節(jié)跳動數(shù)據(jù)平臺同名公眾號

      posted @ 2022-01-10 14:20  字節(jié)跳動數(shù)據(jù)平臺  閱讀(2314)  評論(1)    收藏  舉報
      主站蜘蛛池模板: 日韩精品福利一二三专区| 国产无套内射普通话对白| 成人嫩草研究院久久久精品| 国产精品无码无片在线观看3d| 亚洲国产精品综合久久20| 国产美女直播亚洲一区色| 日本边添边摸边做边爱的网站| 日韩欧美在线综合网另类| VA在线看国产免费| 中文字幕有码高清日韩| 亚洲国产成人久久77| 又爽又黄又无遮挡的视频| 亚洲av日韩av综合在线观看| 人妻中文字幕av资源站| 国产福利酱国产一区二区| 亚洲成在人线在线播放无码 | 亚洲精品色国语对白在线| 国产女人喷潮视频免费| 国产美女69视频免费观看| 99久久无色码中文字幕| 精品人妻中文字幕av| 国产精品中文字幕观看| 国产精品十八禁在线观看| 色综合久久蜜芽国产精品| 国产偷自视频区视频| 久久精品国产一区二区三区不卡| 少妇人妻偷人一区二区| 男女啪啪网站| 成人亚欧欧美激情在线观看| 色婷婷av久久久久久久| 亚洲自拍偷拍福利小视频| 亚洲精品漫画一二三区 | 18禁无遮挡啪啪无码网站| 超清无码一区二区三区| 成人乱码一区二区三区四区| 在线国产你懂的| 国产精品剧情亚洲二区| 久久www免费人成看片中文| 极品白嫩少妇无套内谢| 377人体粉嫩噜噜噜| 日韩精品18禁一区二区|