Python數據相關性分析有哪些方法?
除了表格觀察之外 有沒有具體數據說明數據的關聯性比如r平方
1、Python關於數據方面的分析和操作建議看以下一本或者幾本書:《Python數據處理》、《Python數據科學手冊》、《利用Python進行數據分析》這幾本書,幾乎都是圖靈系的,應該會對你理論和操作有幫助。
2、Python關於這方面的包也有很多,使用數據包也有期中包括:pandas、numpy、matplotlib、scipy等一些類似的或者相關的包
我想這些會對你有幫助~
分數據類型吧
數值型變數間用皮爾遜相關係數、斯皮爾曼相關係數,pandas包的corr()函數可以實現,或者用seaborn畫一個heatmap圖,標度上就是相關係數
類別型變數用卡方檢驗,scipy包的chi2_contingency輸出卡方值和p值,通過卡方檢驗說明變數相關。
數值型變數和類型變數可用statsmodels的anova_lm對類別變數和數值變數建模,通過F檢驗的變數說明兩者相關
這就是數學問題了,數理統計裡面的內容,可以參考皮爾森相關性係數、肯德爾相關性係數、斯皮爾曼相關性係數、協方差等等指標。
使用 Python 提供的 Pandas 庫,我們可以很方便的求出上述的相關性係數值。
網上找的相關代碼[1],供你參考:
import pandas as pd
df = pd.DataFrame({A:[5,91,3],B:[90,15,66],C:[93,27,3]})
print(df.corr())
print(df.corr(spearman))
print(df.corr(kendall))
df2 = pd.DataFrame({A:[7,93,5],B:[88,13,64],C:[93,27,3]})
print(df2.corr())
print(df2.corr(spearman))
print(df2.corr(kendall))
參考
- ^相關性係數及其python實現 https://www.cnblogs.com/sddai/p/10332573.html
最簡單的 協方差,或者apriori演算法.....其實也都不是python特有的
pandas.dataframe.corr()
首先用scipy的stats模塊對數據進行正態性檢驗,看是否滿足正態分佈,若滿足正態分佈,用皮爾遜相關性分析,若不滿足,用斯皮爾曼相關性分析。
scipy,numpy這個包瞭解下
推薦閱讀: