實際工作中的數據挖掘流程

數據工作者最長也是有效的一種工作方式是帶項目,無論是數據分析還是專項挖掘,項目制能使數據盡量貼近業務並且有效理解業務和數據的各個維度。那麼如何建立面向業務落地的數據分析(挖掘)流程?

在做本篇介紹之前,有以下幾個方向需要做一個界定,這些界定是做本篇的前提:

該項目流程是面向業務層的,直接通過模型做代碼優化或者以BI技術為方向的不同;

該項目的領導者是具有一定能力的數據分析師,需要具備業務常識、數據理解能力和專項分析挖掘能力,說白了,能接受問題並且能解決問題;

該項目是以業務落地為導向的,那些面向市場分析方向的戰略項目等不在此列。

在以上的界定下,我們放心的來談本篇的核心,我相信大多數一線的數據分析師都能適用這套流程。完整的數據分析(挖掘)流程包括:需求提報審核、商業理解、數據理解、專項分析(建模)、部署與實施優化、項目總結六大部分。

一、需求提報

任何數據分析的起點都是從業務需求開始的。在收到業務需求後,首先要做的還不是業務夠通,是考量這個需求是否可以受理。導致需求不能受理的原因包括業務需求本身是個偽命題以及目前的數據無法支撐該需求的分析。

目的:第一步需求提報的審核目的是找到最佳需求命題,並確定該命題的可行性。

輸出物料:無

周期:1天內響應

二、商業理解

商業理解包括業務語言轉化成數據語言的整個過程,目的是確定業務通過數據需要實現的具體緯度,粒度,數據範圍等,通過方案思路進行二次確認。確認思路後,會正式開始項目的數據部分工作。

目的:確認業務邏輯、數據分析需求、數據產出內容方向及分析思路。

輸出物料:分析思維導圖、測試數據

周期:2天

三、數據準備

數據準備是對即將進行的分析和挖掘工作進行預處理,包括從數據倉庫中取數,驗證數據質量,數據特徵提取,異常值處理,數據轉換,合併等,為最終的數據分析挖掘做準備。這個階段是非常費時但是重要的工作,前期這個工作做不好會直接影響數據質量。

目的:數據前期清洗。

輸出物料:數據

周期:4天

四、專項分析(建模)

經過需求確認,數據清洗之後,開始了專項數據分析和挖掘工作,包括常用的描述性數據統計、數據分類、聚類、管理、序列、規則提取等建模工作,並在專項分析或建模結束後完成模型測試工作,保持模型的穩定性和最佳擬合度。

目的:報告撰寫、模型搭建。

輸出物料:分析報告、建模流程和節點、模型評估報告等

周期:7天

五、部署與實施優化

本階段包括數據結果輸出,方式可能是郵件、會議類(通常是二者配合),在業務報告溝通中確認落地執行計劃,並安排排期和計劃方案,同時數據分析師進行數據收集,等業務執行完畢後進行效果再評估,並根據評估結果優化前期報告或模型結果。

目的:數據落地。

輸出物料:業務執行計劃、落地排期、數據落地收集計劃等

周期:14天(根據所需數據量和業務時間需求而定)

六、項目總結

在整個項目結束後,進行整體總結,反思本項目整個過程,包括前期需求溝通與確認是否清晰,中期數據處理、分析和挖掘如何優化,後期數據落地效果和建議等,對整個項目有新的認知,最終為下一次項目積累經驗。如果有必要,可以跟業務一起溝通討論本次項目的優劣得失。另外,不是所有的有效項目都是以成功結束,失敗的項目也可以為我們帶來啟發,最起碼能說明業務的邏輯或出發點不可行。

目的:經驗總結

輸出物料:項目總結報告

周期:1天

只會做挖掘、只會寫報告的數據分析師只能算一半,另一半就是如何把我們的思想、建議融入業務中,真正讓他們理解並付諸實踐。這才是數據分析師存在的真正價值。cda數據分析師培訓


推薦閱讀:
相关文章