一、數據團隊業務的痛點

過去一年中,我加入美圖數據團隊,雖然我的職位是開發,但平時也主動和leader以及同事聊到目前數據上的業務流程。先來說說美圖公司的數據業務吧。

1、數據業務

即然是業務,就有甲方與乙方。乙方為甲方服務。數據業務中,演算法人員是甲方,演算法同學在做AI相關的工作,跑模型需要數據,此時就會向數據團隊提出需求,eg:需要1w張嬰兒的圖片。提到任務後數據團隊的工作可分為三部分

  • 數據採集:主要使用python等網路爬蟲技術
  • 數據管理:數據集的管理,包括採集完的數據,標註過濾好的數據
  • 數據標註:以外包模式將標註任務分配出去

數據團隊業務

2、數據業務的痛點

數據業務腦圖

  • 數據集管理瑣碎:目前對採集完、標註完的數據都是以目錄+文件形式保存在鏡像伺服器中。當數據團隊接手項目多時,需要花較長時間找到對應數據集
  • 數據標註工具多樣,學習成本高:目前團隊有超過十種標註工具(由Windows平臺部進行開必),工具運行在Windows系統。工具過多,而且工具的用戶體驗不好(工具界面類似下圖Windows標註工具)。工具的學習成本挺高,和同事交流,像人臉點的標註,一般需要3~5才能熟練掌握。
  • 數據標註任務分配過於封閉。目前任務的分配是通過QQ、微信下發給外包組長,包括時間點,任務量(內部需求如圖2.2)。缺點QQ、微信下發task具有封閉性,團隊其它成員無法快速瞭解標註任務目前的進度。
  • 演算法產品需求文檔要不明確導致溝通成本加大。內部需求文檔如圖2.3. 目前的流程是演算法把需求文檔給數據團隊,數據團隊再將需求下發給外包leader。中間經過兩層溝通,一旦演算法同學給的需求標準不明確,出現歧義,出現的隱性的溝通成本是巨大的。
Windows標註工具

對接外包下發任務
演算法需求標準

3、針對痛點的解決方案

我們希望有一個數據標註平臺的產品,來解決團隊業務上的痛點,提高工作效率。該產品主要的功能模塊如圖所示。

數據標註平臺功能模塊
  • 為了方便數據管理,希望拋棄舊的『本地保存數據』模式,而是將數據保存到資料庫。直接在產品進行增刪改查等業務操作。
  • 產品具有多種標註方式,只需在工具欄切換即可(目前業務有畫點、框、polyline、polygon、bitmap、固定點數的keypoints等)
  • 數據團隊成員在給外包分配任務時,同團隊的成員應是類似Admin許可權,如看到所有的task流當前進度。外包leader、外包成員應只能看到一部分數據集(即數據團隊分配的數據集)。需將許可權分清,更深入許可權系統還需後繼進行競品分析。
  • 為了減少溝通成本,可以考慮添加實時溝通系統。類似墨刀,如圖

實時溝通模塊

二、確定目標用戶

1、用戶類別

以當前團隊的業務來看,產品的用戶可大致分為三類:

目標用戶分類

2、需求調研

騰訊問卷:wj.qq.com/s2/3035254/b8

3、競品分析

前程明亮:數據標註平臺—競品分析?

zhuanlan.zhihu.com
圖標

推薦閱讀:
相關文章