大數據本身是個複合學科,計算機、數學、統計學是三大基礎,首先肯定一點,學大數據,如果有計算機、數學或者統計學的任一學科基礎,學起來肯定比完全零基礎的新手小白,入門更快。

但是很多人也不要錯誤地理解為數學必須好才能學大數據,從大數據相關的崗位具體工作來說,大數據開發或者大數據分析,在實際工作當中也並不會直接用到數學知識,更多地是需要邏輯思維嚴密,而通常來說,數學好的人,邏輯思維也不會太差,所以才有了這樣的誤區。

以大數據分析崗來說,數學知識更多是很多理論上的東西,最終還是需要結合實際業務去思考,並不是要你用數學知識去解決問題。當然,作為新興技術領域,大數據要學好,肯定是需要付出相應的時間和精力才行的。


以高薪吸引了眾多關注的大數據行業,成為很多朋友們未來的職業發展選擇,想要進入大數據行業,卻又怕大數據太難,自己能不能學得會,未來能不能找得到工作。比方說,高等數學,大數據會學高數嗎,學大數據必須數學好嗎,下面我們就來詳細了解一下。

事實上,現在普遍對大數據的認識,都認為大數據是一門交叉學科,其實涉及到數學、統計學、計算機科學等多個門類的知識,所以很多人會擔心,我數學不好,會不會學大數據很難學會呢?

大數據會學高數嗎

這裡我們首先需要明確一個觀點,不管是數學好還是理科好等等,其實只能對大數據有一定的助力作用,並非是學習大數據的決定性因素。數學不好,並不代表著說,一定就學不好大數據。大數據當中,確實是會涉及到一定的數學知識,但是並不是要你去當數學家。

大家擔心的大數據會學高數嗎?其實不是學習大數據的必備條件,根據不同的學校的專業課程設置,會有一些數學課程的安排,但是會有一定的側重——

因為在大數據的不同崗位上,如大數據開發、大數據分析、大數據挖掘、大數據運維等,不同的職業發展方向,對於數學的要求並不一樣。

學大數據必須數學好嗎?其實只需要有某些方面的數學基礎就夠了,例如概率論與數理統計、線性代數、離散數學等。

概率論與數理統計,這部分與大數據技術開發的關係非常密切,條件概率、獨立性等基本概念、隨機變數及其分布、多維隨機變數及其分布、方差分析及回歸分析、隨機過程(特別是Markov)、參數估計、Bayes理論等在大數據建模、挖掘中就很重要。

線性代數,這部分與大數據技術開發的關係也很密切,矩陣、轉置、秩分塊矩陣、向量、正交矩陣、向量空間、特徵值與特徵向量等在大數據建模、分析中也是常用的技術手段。

而離散數學,是所有計算機科學分支的基礎,自然也是大數據技術的重要基礎。

關於大數據會學高數嗎,學大數據必須數學好嗎,今天就為大家分享到這裡了。大數據技術正在高速發展中,每時每刻我們的生活都在產生著變化,未來的大數據也有著更廣闊的應用場景,所以想學大數據,那就抓住機遇,認準目標行動吧!

獲取大數據專業資料請私信小編!


是的,必須學好數學。

統計學是數據分析必須掌握的基礎知識,它是通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的互聯網領域也不例外,因此紮實的統計學基礎是一個優秀的數據分析師必備的技能。統計學的知識包括了圖形信息化、數據的集中趨勢、概率計算、排列組合、連續型概率分布、離散型概率分布、假設檢驗、相關和回歸等知識,對於具體的知識點,樓主就不一一介紹了,感興趣的同學請參考書籍《深入淺出統計學》、《統計學:從數據到結論》,今天的分享主要會選取統計學中幾個容易混淆的、比較重要的知識點進行分享。

PS:本部分知識點整理自《深入淺出統計學》以及網友們分享的博客、知乎等,轉載的部分已經在原文加引同時在文末的參考鏈接部分已經標出,歡迎大家參讀網友的原作。

一、 方差、協方差、相關係數R、決定係數R2

1.方差、標準差以及標準差係數

(1).方差:所有樣本各自減平均數的差,平方後在累計求和,最後在除以樣本個數。

(2).標準差:所有樣本各自減平均數的差,平方後在累計求和,再除以樣本個數,最後再開方。(3).標準差係數:所有樣本各自減平均數的差,平方後在累計求和,再除以樣本個數再開方,最後除以樣本平均值。

2.協方差

協方差通俗的理解就是兩個變數在變化過程中是同向還是反向?同向或反向的程度如何?

你變大,同時我也變大,說明兩個變數是同向變化,這時協方差就為正;

你變大,同時我變小,說明兩個變數是反向變化的,這時協方差為負

協方差的計算公式:

如果有X,Y兩個變數,每個時刻的『X與其均值之差』乘以『Y與其均值之差』得到一個乘積,在對這時刻的乘積求和並求出均值。

3.相關係數R

相關係數分三種,spearman, pearson, kendall

協方差的值會隨著變數量綱的變化而變化(covariance is not scale invariant),所以,這才提出了pearson相關係數的概念:

相關係數(皮爾森相關係數):X,Y的協方差除以X,Y的標準差的乘積。

解釋:自變數X和因變數Y的協方差/標準差的乘積。* 協方差:兩個變數變化是同方向的還是異方向的。X高Y也高,協方差就是正,相反,則是負。

* 為什麼要除標準差:標準化。即消除了X和Y自身變化的影響,只討論兩者之間關係。

* 因此,相關係數是一種特殊的協方差。

4.決定係數R2

下面來說決定係數,R方一般用在回歸模型用於評估預測值和實際值的符合程度,R2的定義如下:

決定係數=回歸平方和/總平方和=1-殘差平方和/總平方和

該部分引用GRAYLAMB的《如何通俗易懂地解釋「協方差」與「相關係數」的概念?》,鏈接為https://www.zhihu.com/question/20852004 ;TheOneGIS的《相關係數r和決定係數R2的那些事》,鏈接為https://blog.csdn.net/theonegis/article/details/85991138#_5;PriscillaBai的《統計-R(相關係數)與R^2(決定係數)傻傻分不清》,鏈接為https://www.jianshu.com/p/8aefd78be186 ;高階Python成長之路專欄的《線性回歸中的相關係數和決定係數》,鏈接為https://zhuanlan.zhihu.com/p/32335608。

二、 極限中心定理和大數定理

大數定律講的是樣本均值收斂到總體均值,說白了就是期望。

中心極限定理告訴我們,當樣本足夠大時,樣本均值的分布會慢慢變成正態分布。中心極限定理收斂至大數定律。

1.中心極限定理

中心極限定理指的是給定一個任意分布的總體。我每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。 這些平均值的分布接近正態分布。

下圖形象的說明了中心極限定理

當樣本量N逐漸趨於無窮大時,N個抽樣樣本的均值的頻數逐漸趨於正態分布,其對原總體的分布不做任何要求,意味著無論總體是什麼分布,其抽樣樣本的均值的頻數的分布都隨著抽樣數的增多而趨於正態分布,如上圖,這個正態分布的u會越來越逼近總體均值,並且其方差滿足a^2/n,a為總體的標準差,注意抽樣樣本要多次抽取,一個容量為N的抽樣樣本是無法構成分布的。

2、大數定律

大數定律是指在隨機試驗中,每次出現的結果不同,但是大量重複試驗出現的結果的平均值卻幾乎總是接近於某個確定的值。

ps:

1.總體的分布不要求是正態分布

2.抽取的樣本要足夠大(&>=30)3、數學理論我們假設有n個獨立隨機變數,令他們的和為:

那麼大數定律(以一般的大數定律為例),它的公式為:

而中心極限定理的公式為:

注意:上面兩個公式,一個是值為0,一直均值為0的正太分布;而左邊極為相似!但不一樣的。

4、區別

(1).隨機變數的分布

大數定律:揭示了大量隨機變數的平均結果,但沒有涉及到隨機變數的分布的問題。中心極限定理:說明的是在一定條件下,大量獨立隨機變數的平均數是以正態分布為極限的。(2).研究的內容不同大數定律研究的是在什麼條件下,這組數據依概率收斂於他們的均值。中心極限定理研究的是在什麼條件下,這些樣本依分布收斂於正態分布。(卯詩松的概率論與數理統計上說)(3).描述的問題不同大數定律描述的是頻率穩定性,就是我們所說的頻率穩定在具體的一個數值,即為概率;

中心極限定理描述的是分布穩定性,指的是頻率有很多,但是服從正態分布,XY軸中Y最高的那個正態分布數值即為概率。

(4).舉個例子大數定理是說樣本足夠大時,會接近期望,在樣本無窮大時平均值是期望(一個值)。中心極限定理說的是樣本距離期望的漲跌偏差分布。(出現一種分布規律)舉個簡單的例子,一滴水從高空落下,經過一個隨機分布的風向後,落在地上。大數定理指出,無論風向分布規律是什麼,所有的點距離垂直落下的點的距離應該等於一個值,這個值就是期望。中心極限定理指出,無論風向分布規律是什麼,每個樣本距離期望的位置的距離分布是符合正態分布的。

該部分參考綠島小微米的《中心極限定理以及其和大數定律的區別》,鏈接為https://blog.csdn.net/u014755493/article/details/72118559;深度學習自然語言處理的《大數定理與中心極限定理的區別與聯繫》,https://zhuanlan.zhihu.com/p/36259056。

三、 條件概率與貝葉斯公式

該部分的知識點整理自《深入淺出統計學》以及部分網友分享的筆記。

1.概率:度量某事發生幾率的數量指標。

進一步理解:概率只是對事件發生可能性的一種表達,概率並非擔保。

2.事件:有概率可言的一個結果或一件事。

計算公式:

,其中S稱為概率空間,或樣本空間。

3.概率的直觀表現形式

維恩圖

概率樹

4.對立事件: 「A不發生」事件可以用A表示。A被稱為A的對立事件。A包含事件A所不包含的任何事件。 P(A)=1-P(A)

5.互斥事件:事件A與事件B不同時發生。

6.相交事件:事件A與事件B會同時發生。

7.獨立事件: 幾個事件互相不影響。P(A|B)=P(A). 如果兩個事件相互獨立,則 P(A∩B)= P(A|B)P(B)=P(A)P(B)

8.窮舉事件:表示兩個事件的並為全集。

劃重點

9.條件概率:P(A|B)=P(A∩B)/P(B)

10.全概率公式:根據條件概率計算一個特定事件的全概率。P(B)=P(A∩B)+P(A∩B)=P(A)* P(B|A)+P(A)* P(B|A)

11.貝葉斯定理:提供了一種計算逆條件概率的方法,再無法預知每種概率的情況下,非常有用。

貝葉斯定理:已知P(A),P(B|A),P(B|A);求P(A|B).

P(A|B) = P(A∩B) / P(B) = P(A)* P(B|A) / P(A)* P(B|A)+P(A)* P(B|A)

公式:P(A∪B)=P(A)+P(B)-P(A∩B)

12.相關事件: 如果 P(A|B)不等於P(A),就說事件A與事件B的概率相互影響。

【貝葉斯定理例題解析—2020 Pdd學霸批筆試題】

設工廠A和工廠B的產品的次品率分別為1%和2%,現從由A和B的產品分別佔60%和40%的一批產品中隨機抽取一件,發現是次品,則該次品屬A生產的概率是______.

【解析】

設事件:A={抽取的產品為A工廠生產的};

事件:B={抽取的產品是B工廠生產的};事件:C={抽取的是次品};顯然有:P(A)=0.6;P(B)=0.4P(C|A)=0.01;P(C|B)=0.02;

根據全概率公式有:P(C)=P(A)P(C|A)+P(B)P(C|B)=0.6×0.01+0.4×0.02=0.014.P(AC)=P(A)P(C|A)=0.6×0.01=0.006根據條件概率公式有:P(A|C)=

P(AC)

P(C)

=0.006÷0.014=3/7

故答案為:3/7

四、 正態分布與偏態分布

1.正態分布與偏態分布的概念

正態分布(normal distribution)

偏態分布(skewed distribution)

左偏態:left skewed distribution,負偏態(negatively skewed distribution),以尾部命名,左偏態或者叫負偏態的尾部,主要在左側;

右偏態:right skewed distribution,正偏態(positively skewed distribution),同樣地,右偏態或者叫正偏態的尾部,則集中在右側;

2.眾數、中位數以及均值的關係

正態分布還是偏態分布(左偏態/右偏態)在函數圖像上容易分辨,在統計數據上,也很容易分別,比如正偏態分布(右偏),mean &> median&>mode,對於負偏態(左偏),mean &< median&

3.正態分布的數字特徵

4.偏態分布的偏態和峰度

(1)偏態與峰度分布的形狀

(2)偏度係數(Skewness)

偏度係數(Skewness)用來度量分布是否對稱。正態分布左右是對稱的,偏度係數為0。較大的正值表明該分布具有右側較長尾部。較大的負值表明有左側較長尾部。偏度係數與其標準誤的比值同樣可以用來檢驗正態性。

偏態係數的計算公式如下:

劃重點

1).偏態係數=0為對稱分布

2).偏態係數&>0為右偏分布3).偏態係數&<0為左偏分布

(3)峰度係數(Kurtosis)

峰度係數的概念:峰度係數是用來反映頻數分布曲線頂端尖峭或扁平程度的指標。有時兩組數據的算術平均數、標準差和偏態係數都相同,但他們分布曲線頂端的高聳程度卻不同。

峰度係數(Kurtosis)用來度量數據在中心聚集程度。峰度係數的計算公式:

劃重點

1).峰度係數=3,扁平程度適中

2).偏態係數&<3,扁平分布3).偏態係數&>3, 峰鋒分布在正態分布情況下,峰度係數值是3(但是SPSS等軟體中將正態分布峰度值定為0,是因為已經減去3,這樣比較起來方便)。&>3的峰度係數說明觀察量更集中,有比正態分布更短的尾部;&<3的峰度係數說明觀測量不那麼集中,有比正態分布更長的尾部,類似於矩形的均勻分布。峰度係數的標準誤用來判斷分布的正態性。峰度係數與其標準誤的比值用來檢驗正態性。如果該比值絕對值大於2,將拒絕正態性。

該部分參考CJZhaoSimons的《數據面試題:正態分布、偏態分布及峰態分布》,鏈接為https://www.cnblogs.com/jackchen-Net/p/8073956.html;數據西瓜皮的《偏態與峰度》,https://blog.csdn.net/weixin_38322363/article/details/82952770

五、 3δ原則

3δ原則簡介

先假設一組檢測數據只含有隨機誤差,對其進行計算處理得到標準偏差,按一定概率確定一個區間,認為凡超過這個區間的誤差,就不屬於隨機誤差而是粗大誤差,含有該誤差的數據應予以剔除就得出3δ。

在正態分布中δ代表標準差,μ代表均值。x=μ即為圖像的對稱軸。

3δ:數值分布在(μ-δ,μ+δ)中的概率為0.6826;數值分布在(μ-2δ,μ+2δ)中的概率為0.9544;數值分布在(μ-3δ,μ+3δ)中的概率為0.9974;可以認為,Y 的取值幾乎全部集中在(μ-3δ,μ+3δ)]區間內,超出這個範圍的可能性僅占不到0.3%。3δ准建立在正態分布的等精度重複測量基礎上,造成奇異數據的干擾或雜訊難以滿足正態分布。如果一組測量數據中某個測量值的殘餘誤差的絕對值 νi>3δ,則該測量值為壞值,應剔除。通常把等於 ±3δ的誤差作為極限誤差,對於正態分布的隨機誤差,落在 ±3δ以外的概率只有 0.27%,它在測量中發生的可能性很小,故存在3δ準則。3δ準則是最常用也是最簡單的粗大誤差判別準則,它一般應用於測量次數充分多( n ≥30)或當 n>10做判別時的情況。

該部分內容轉自智庫百科,鏈接如下https://wiki.mbalib.com/wiki/%E4%B8%89%E8%A5%BF%E6%A0%BC%E7%8E%9B%E5%87%86%E5%88%99

參考鏈接

https://www.zhihu.com/question/20852004

https://blog.csdn.net/theonegis/article/details/85991138#_5

https://www.jianshu.com/p/8aefd78be186

https://zhuanlan.zhihu.com/p/32335608

https://blog.csdn.net/u014755493/article/details/72118559

https://www.cnblogs.com/jackchen-Net/p/8073956.html

https://wiki.mbalib.com/wiki/%E4%B8%89%E8%A5%BF%E6%A0%BC%E7%8E%9B%E5%87%86%E5%88%99

https://blog.csdn.net/weixin_38322363/article/details/82952770

更多資訊關注微信公眾號:DataScienceArt,不定期分送各種小福利。


我覺得是肯定的,大數據本來就是一個特別複雜,難度係數高的東西,並且覆蓋面也非常的廣,需要紮實的數學基礎是必然的。

大數據基礎主要由三個基礎學科組成,分別是計算機、數學和統計學,同時輔助社會學、經濟學、醫學等學科的內容。

當然這裡的好不是像數學家那樣,而是要把他的基礎學好,比概率論與數理統計、線性代數、離散數學等內容。

大數據專業會設置比較豐富的數學課程,一定要認定對待這些數學課程的內容,未來數學基礎能在一定程度上決定大數據研發人員的成長高度。


換2個問題:

1、你想走的多遠。

2、你以後想從事的方向是哪個方向。

關於問題1:

我們先看看數據從業者的層級:

大數據從業分為:數據運維工程師、數據研發工程師、數據分析師,

運維工程師給數據挖掘提供了基礎,在這基礎上數據挖掘工程師進行挖掘,最終將有價值的信息提供給分析師,每一個環節都非常重要,同時越往後越難,越往後用到的數學知識越多,所以你想走多遠能幫你回答這個問題。

關於問題2:

人無完人,有的人可能天生不喜歡數學,但也是可以從事大數據的,像數據運維工種就是對數據收集與存儲,對數學要求沒有那麼高,如果你能做到在這個領域做到頂尖,也是有不錯的回報的。


數學是很多崗位知識的基礎學科,學好數學,在很多崗位上都會遊刃有餘。但是具體側重點學什麼,要看你想從事大數據什麼崗位

大數據家族嚴格來說可以細分成下面9個崗位,當然這9個崗位並不是在每個公司都會劃分的這麼細,越是重視數據、越是財大氣粗的公司劃分的越細,很多公司的數據人員會身兼數職,比如大數據運維和大數據平台開發,數據倉庫與數據測試等,都是同一個人兼著。

詳細可以看一下這篇文章

數據的追隨者:大數據崗位家族解讀?

zhuanlan.zhihu.com圖標

數學不一定要好但要有邏輯思維,初中數學就夠用,來自一位大數據工作者的吐槽


要看你想做那塊的,如果做分析師和演算法,那就得好好學習數學啦


大數據對數學本身要求不高,而且現在的分析軟體都很強大,大多數情況下熟練掌握幾種分析工具,數學方法黑箱了解就可以了。除非你打算改進方法本身,那樣也只需要你對少數幾個方法做深入了解。

其實比起數學基礎,一定的邏輯思維加上對事物的洞察,以及歸納和表達能力其實更為重要,尤其如果你將來要從事科研工作的話。


記得有人說過,數學、統計學的理論高度決定學習大數據的天花板。調參什麼的,還是知其然知其所以然的好。


推薦閱讀:
相关文章