假如現有80萬條用戶數據保存在Excel裡面,大概有130M大小,怎麼去處理?用什麼軟體去處理比較合適?

笨辦法:VBA+Excel公式,裡面需用到大量計算,用Excel公式比較直觀,方便後期修改


謝邀!

一個合格的數據分析師要有怎樣的知識體系?下面九個方面必不可少:

統計相關的數學知識

數學知識是數據分析師的基礎知識。

對於初級數據分析師,瞭解一些描述統計相關的基礎內容,有一定的公式計算能力即可,瞭解常用統計模型演算法則是加分。

對於高級數據分析師,統計模型相關知識是必備能力,線性代數(主要是矩陣計算相關知識)最好也有一定的瞭解。

而對於數據挖掘工程師,除了統計學以外,各類演算法也需要熟練使用,對數學的要求是最高的。

趁手的工具

對於初級數據分析師,玩轉Excel是必須的,數據透視表和公式使用必須熟練,VBA是加分。另外,還要學會一個統計分析工具,SPSS作為入門是比較好的。

對於高級數據分析師,使用分析工具是核心能力,VBA基本必備,SPSS/SAS/R至少要熟練使用其中之一,其他分析工具(如Matlab)視情況而定。

對於數據挖掘工程師……嗯,會用用Excel就行了,主要工作要靠寫代碼來解決呢。

Python語言

對於初級數據分析師,會寫SQL查詢,有需要的話寫寫Hadoop和Hive查詢,基本就OK了。

對於高級數據分析師,除了SQL以外,學習Python是很有必要的,用來獲取和處理數據都是事半功倍。當然其他編程語言也是可以的。

對於數據挖掘工程師,Hadoop得熟悉,Python/Java/C++至少得熟悉一門,Shell得會用……總之編程語言絕對是數據挖掘工程師的最核心能力了。

業務理解能力

業務理解說是數據分析師所有工作的基礎也不為過,數據的獲取方案、指標的選取、乃至最終結論的洞察,都依賴於數據分析師對業務本身的理解。

對於初級數據分析師,主要工作是提取數據和做一些簡單圖表,以及少量的洞察結論,擁有對業務的基本瞭解就可以。

對於高級數據分析師,需要對業務有較為深入的瞭解,能夠基於數據,提煉出有效觀點,對實際業務能有所幫助。

對於數據挖掘工程師,對業務有基本瞭解就可以,重點還是需要放在發揮自己的技術能力上。

邏輯思維

理工男都具有的思維。

對於初級數據分析師,邏輯思維主要體現在數據分析過程中每一步都有目的性,知道自己需要用什麼樣的手段,達到什麼樣的目標。

對於高級數據分析師,邏輯思維主要體現在搭建完整有效的分析框架,瞭解分析對象之間的關聯關係,清楚每一個指標變化的前因後果,會給業務帶來的影響。

對於數據挖掘工程師,邏輯思維除了體現在和業務相關的分析工作上,還包括演算法邏輯,程序邏輯等,所以對邏輯思維的要求也是最高的。

大數據可視化工具

數據可視化說起來很高大上,其實包括的範圍很廣,做個PPT裡邊放上數據圖表也可以算是數據可視化,所以我認為這是一項普遍需要的能力。

對於初級數據分析師,能用Excel和PPT做出基本的圖表和報告,能清楚的展示數據,就達到目標了。

對於高級數據分析師,需要探尋更好的數據可視化方法,使用更有效的數據可視化工具,如可視化工具tableau,根據實際需求做出或簡單或複雜,但適合受眾觀看的數據可視化內容。

對於數據挖掘工程師,瞭解一些數據可視化工具是有必要的,也要根據需求做一些複雜的可視化圖表,但通常不需要考慮太多美化的問題。

協調溝通

不是業務,勝似業務!

對於初級數據分析師,瞭解業務、尋找數據、講解報告,都需要和不同部門的人打交道,因此溝通能力很重要。

對於高級數據分析師,需要開始獨立帶項目,或者和產品做一些合作,因此除了溝通能力以外,還需要一些項目協調能力。

對於數據挖掘工程師,和人溝通技術方面內容偏多,業務方面相對少一些,對溝通協調的要求也相對低一些。

快速學習能力

哪個行業不喜歡愛學習的人呢?

無論做數據分析的哪個方向,初級還是高級,都需要有快速學習的能力,學業務邏輯、學行業知識、學技術工具、學分析框架……數據分析領域中有學不完的內容,需要大家有一顆時刻不忘學習的心。

以上僅個人見解,希望對你有所幫助


根據題目,感覺題主應該不是IT專業的數據分析師,平時主要使用Excel完成日常工作,VBA的優勢在於自動化、批量處理,但面對大數據,它和Excel公式一樣,並沒有好的解決辦法。

那是不是必須去學一門語言呢,比如Python或者R,如果你有精力可以學,沒有精力也沒關係,就用Excel依然可以搞定大數據。

Excel早已經不僅是你每天看到的1048576行單元格,它還有更強大的Powerquery和Powerpivot,數據量已經沒有限制,只要電腦配置可以,上億行的數據Excel都可以搞定。

Powerpivot和Powerquery在Excel中可以玩轉,更溜的方式是直接用PowerBI,與Excel無縫對接,並且PowerBI desktop完全免費、正版,這在微軟系列裡絕對是最良心的產品了。

有了整合Powerpivot和powerquery、powerview、powermap所有功能的PowerBI,何必還在用破解版的Excel處理大數據呢。

數據分析師不僅知道如何處理數據,更要知道現在有哪些工具可以使用。

不要只是埋頭分析數據,不要到現在了還只知道VBA,剛畢業的年輕人使用PowerBI,分分鐘就甩你幾條街。


別說80萬條數據了,我10萬條以上的數據,一般都依賴資料庫去處理,寫幾句SQL的事。

或者你用BI工具處理,powerbi Finebi都行,我用的finebi:導入數據——ETL處理計算——可視化分析,性能上沒壓力,人家都是處理百萬億級的。

計算欄位基本不用寫公式,自帶的,也是比較傻瓜了。


好的工具,傳統的excel受限於自身能力(最多載入一百萬行),所以第一建議你以後存儲文件的時候存儲成csv格式,下面說一下工具,power query和power pivot,用這兩個結合處理,沒有任何壓力,瞭解一下,受益無窮


80萬就算大了,那我們1億條的這種數據,不要算到天荒地老,用編程用分散式,大數據分析是面對海量的數據和複雜的處理邏輯,他是要用資料庫的而不是用Excel的,如果你想學大數據那就學Python和SQL這些開始吧。


學習python吧,在jupyter裏編程解決


平時工作中也有很多處理數據的情況,不過一般來講Excel+Python基本就能解決了。

如果是最簡單的任務,Excel解決,

有點難度? Excel裡面的power query+power pivot

再困難點,Python的pandas用起來。


推薦閱讀:
相關文章