作者介紹:張翔

車手、歌手、程序員,有態度有方法的質量TL、新技術探索者和佈道者,現就職於螞蟻金服,他和他的愛車定居於成都。

你可曾遇到過這些問題?

螞蟻金服技術專家:更聰明的做線上質量

在支付寶錢包的出境頻道,會給用戶推薦各色的內容,店鋪、優惠券、旅遊景點、攻略等。而一些奇葩的錯誤常常發生:

圖1:推薦店鋪的內容上有錯別字、禁忌詞。

圖2:推薦了大量相同/相似的內容。

圖3:店鋪的主圖清晰度低,缺乏吸引力。

圖4:店鋪圖片出現了死鏈接。

這些奇葩的問題爲什麼會出現?

QA都是喫乾飯的啊?這些問題爲什麼研發過程中發現不了,上線後才發現,太打臉了啊!

稍微分析一下,發現這類問題在研發流程中的QA是解決不了的:

螞蟻金服技術專家:更聰明的做線上質量

線下環節:確保了應用系統的代碼邏輯是OK的;線下造數據驗證推薦的功能,但無法驗證推薦有效性、內容有效性。

線上環節:在灰度發佈階段,可以進行效果驗證,並基於當天的數據、算法模型,做推薦有效性、內容有效性驗證。

上線多天:上線多天後,我們發現哪些奇葩問題會從多個地方引入:

  1. 運營改了一個配置規則,導致某些地區內容推薦失效;
  2. 運營配置的營銷頁面,時間太長失效了,成爲了死鏈接;
  3. 新的數據引入了一些體驗不好的“髒數據”,並且推薦給了用戶;
  4. 神經網絡等不可解釋性的模型,不知道哪天就引入了一些badcase。

而這裏面最大的問題是:

用戶很可能比我們更早知道這些問題,但他們不會打電話給客服反饋,他們只會在心裏默默的罵了一句“SB”然後再也不來了。

我們團隊堅信,這些用戶體驗類的細節問題,會是我們成敗的關鍵。

奇葩問題的人肉巡檢1.0

首先,這類問題是不好監控的:

  1. 問題無法衡量:用戶在“看到”這些情況後,並不會去“交互”,所以很難記錄行爲並作指標統計。
  2. 問題無法分析:從頁面訪問行爲等指標上,很難“環比”/“同比”出問題是什麼。

所以產品經理和運營在刀耕火種年代,採用的辦法就是承包責任制,每個人每天去看看自己所承包的城市/區域,有沒有“死鏈接”、“內容敏感”、“垃圾圖片”等問題,找到問題後拉着運營/產品經理/研發一起定位分析,嘗試解決。

在我看來,這種方式簡直就是石樂志

  1. 發現效率:人工方式,不一定能夠趕在用戶之前發現問題
  2. 改進效率:每次找人定位/解決,重複,解決慢
  3. 人力成本:全球有多少城市?用戶體驗問題有多少種?
  4. 優化價值:做了這麼多優化,成效如何體現?

人和動物的本質區別就在於是否會使用工具,所以我們嘗試用技術的力量解決。

用戶體驗巡檢

:我們建立了一套和產品經理/運營的協作機制,幫助我們收集各種各樣的花式問題;我們把這些問題轉成檢測項後,保證每一次檢測都會覆蓋全部的Badcase,不會出現人肉檢測的“漏測”問題;在開發檢測項的時候,我們用到了圖像識別/NLP/位置覈對等AI能力。我們建設的30多種用戶體驗檢測項,覆蓋了:

  1. 像店鋪出現錯別字/亂碼/死鏈接/敏感詞,店鋪評論出現涉黃/涉暴/辱罵內容,這樣的基礎質檢場景
  2. 像內容過期/內容重複,這樣的推薦檢測場景
  3. 像領土爭端(例如把香港認定爲國家)/宗教禁忌,這樣的法律合規場景
  4. 像推薦店鋪過遠/推薦店鋪不在本城市,這樣的位置準確性場景
  5. 像推薦店鋪的門店/菜品圖片不清晰,這樣的圖像質量場景

:我們用大數據的形式,每天找出全球重要地區/城市/街道的幾萬個經緯度點,模擬十幾種具備不同特徵的用戶,作爲不同的位置參數和用戶參數,觸發不同的推薦內容。和人肉檢測相比,覆蓋了更全的區域、用戶羣。

:我們對巡檢項劃分了重要等級,並在線上進行巡檢任務的分級調度,包括分鐘級、小時級、天級等幾種方式;等級最高的巡檢項需要5分鐘發現30分鐘解決;而等級低的巡檢項,一般通過項目排期等方式延後解決。巡檢系統發現問題後,會把問題現場、錯誤原因等信息,通過釘釘機器人、郵件、大盤指標展示等渠道可視化出來,緊急任務自動創建任務流,讓大家可感知可跟蹤。而更有意思的是,我們把運營配置類的解決過程進行了沉澱,和業務系統一起形成“熔斷”機制,保證了部分緊急問題的快速止損,讓用戶無感知。

螞蟻金服技術專家:更聰明的做線上質量

在巡檢體系建立後,我們先後發現並推動解決了幾十個線上問題,預防了可能惡化影響更多用戶的後果,將問題扼殺在搖籃之中。在這個通過技術賦能保障線上質量的過程中,更多的技術點、需求也都湧現了出來。

Think Big, Next to do

當我們在支付寶錢包的出境頻道上實踐成功後,發現還有更多的事情要做:

  1. :支付寶首頁的恵支付/腰封廣告等渠道,也需要具備線上巡檢的能力;我們做爲線上質量的標配能力,如何快速賦能新業務,並讓各渠道的個性化檢測能力更靈活的實現,是後續要考慮的命題。
  2. :如何更好的和業務系統一起做“熔斷”?除了由巡檢平臺發起熔斷之外,巡檢平臺把巡檢能力在“異步檢測模式”的技術上,增加了“同步檢測模式”;提供檢測服務接口給業務系統,讓業務系統獲得檢測建議併發起熔斷。這樣可以讓巡檢平臺只掌握最重要的熔斷操作,讓業務系統可以定製自己專屬的熔斷操作。

To be continue

在大數據/AI時代,全生命週期質量保證中的線上質量越來越重要了,在我們死磕“線下質量”、“研發效能”的同時,需要在特定的業務場景更加關注線上質量。

出問題不可怕,只要能夠在用戶之前發現並解決就好;只要你跑的足夠快,問題就追不上你的腳步。

相關文章