除了表格觀察之外 有沒有具體數據說明數據的關聯性比如r平方


1、Python關於數據方面的分析和操作建議看以下一本或者幾本書:《Python數據處理》、《Python數據科學手冊》、《利用Python進行數據分析》這幾本書,幾乎都是圖靈系的,應該會對你理論和操作有幫助。

2、Python關於這方面的包也有很多,使用數據包也有期中包括:pandas、numpy、matplotlib、scipy等一些類似的或者相關的包

我想這些會對你有幫助~


分數據類型吧

數值型變數間用皮爾遜相關係數、斯皮爾曼相關係數,pandas包的corr()函數可以實現,或者用seaborn畫一個heatmap圖,標度上就是相關係數

類別型變數用卡方檢驗,scipy包的chi2_contingency輸出卡方值和p值,通過卡方檢驗說明變數相關。

數值型變數和類型變數可用statsmodels的anova_lm對類別變數和數值變數建模,通過F檢驗的變數說明兩者相關


這就是數學問題了,數理統計裡面的內容,可以參考皮爾森相關性係數、肯德爾相關性係數、斯皮爾曼相關性係數、協方差等等指標。

使用 Python 提供的 Pandas 庫,我們可以很方便的求出上述的相關性係數值。

網上找的相關代碼[1],供你參考:

import pandas as pd

df = pd.DataFrame({A:[5,91,3],B:[90,15,66],C:[93,27,3]})

print(df.corr())

print(df.corr(spearman))

print(df.corr(kendall))

df2 = pd.DataFrame({A:[7,93,5],B:[88,13,64],C:[93,27,3]})

print(df2.corr())

print(df2.corr(spearman))

print(df2.corr(kendall))

參考

  1. ^相關性係數及其python實現 https://www.cnblogs.com/sddai/p/10332573.html


最簡單的 協方差,或者apriori演算法.....其實也都不是python特有的


pandas.dataframe.corr()


首先用scipy的stats模塊對數據進行正態性檢驗,看是否滿足正態分佈,若滿足正態分佈,用皮爾遜相關性分析,若不滿足,用斯皮爾曼相關性分析。


scipy,numpy這個包瞭解下


推薦閱讀:
相關文章