Python数据相关性分析有哪些方法?
除了表格观察之外 有没有具体数据说明数据的关联性比如r平方
1、Python关于数据方面的分析和操作建议看以下一本或者几本书:《Python数据处理》、《Python数据科学手册》、《利用Python进行数据分析》这几本书,几乎都是图灵系的,应该会对你理论和操作有帮助。
2、Python关于这方面的包也有很多,使用数据包也有期中包括:pandas、numpy、matplotlib、scipy等一些类似的或者相关的包
我想这些会对你有帮助~
分数据类型吧
数值型变数间用皮尔逊相关系数、斯皮尔曼相关系数,pandas包的corr()函数可以实现,或者用seaborn画一个heatmap图,标度上就是相关系数
类别型变数用卡方检验,scipy包的chi2_contingency输出卡方值和p值,通过卡方检验说明变数相关。
数值型变数和类型变数可用statsmodels的anova_lm对类别变数和数值变数建模,通过F检验的变数说明两者相关
这就是数学问题了,数理统计里面的内容,可以参考皮尔森相关性系数、肯德尔相关性系数、斯皮尔曼相关性系数、协方差等等指标。
使用 Python 提供的 Pandas 库,我们可以很方便的求出上述的相关性系数值。
网上找的相关代码[1],供你参考:
import pandas as pd
df = pd.DataFrame({A:[5,91,3],B:[90,15,66],C:[93,27,3]})
print(df.corr())
print(df.corr(spearman))
print(df.corr(kendall))
df2 = pd.DataFrame({A:[7,93,5],B:[88,13,64],C:[93,27,3]})
print(df2.corr())
print(df2.corr(spearman))
print(df2.corr(kendall))
参考
- ^相关性系数及其python实现 https://www.cnblogs.com/sddai/p/10332573.html
最简单的 协方差,或者apriori演算法.....其实也都不是python特有的
pandas.dataframe.corr()
首先用scipy的stats模块对数据进行正态性检验,看是否满足正态分布,若满足正态分布,用皮尔逊相关性分析,若不满足,用斯皮尔曼相关性分析。
scipy,numpy这个包了解下
推荐阅读: