除了表格观察之外 有没有具体数据说明数据的关联性比如r平方


1、Python关于数据方面的分析和操作建议看以下一本或者几本书:《Python数据处理》、《Python数据科学手册》、《利用Python进行数据分析》这几本书,几乎都是图灵系的,应该会对你理论和操作有帮助。

2、Python关于这方面的包也有很多,使用数据包也有期中包括:pandas、numpy、matplotlib、scipy等一些类似的或者相关的包

我想这些会对你有帮助~


分数据类型吧

数值型变数间用皮尔逊相关系数、斯皮尔曼相关系数,pandas包的corr()函数可以实现,或者用seaborn画一个heatmap图,标度上就是相关系数

类别型变数用卡方检验,scipy包的chi2_contingency输出卡方值和p值,通过卡方检验说明变数相关。

数值型变数和类型变数可用statsmodels的anova_lm对类别变数和数值变数建模,通过F检验的变数说明两者相关


这就是数学问题了,数理统计里面的内容,可以参考皮尔森相关性系数、肯德尔相关性系数、斯皮尔曼相关性系数、协方差等等指标。

使用 Python 提供的 Pandas 库,我们可以很方便的求出上述的相关性系数值。

网上找的相关代码[1],供你参考:

import pandas as pd

df = pd.DataFrame({A:[5,91,3],B:[90,15,66],C:[93,27,3]})

print(df.corr())

print(df.corr(spearman))

print(df.corr(kendall))

df2 = pd.DataFrame({A:[7,93,5],B:[88,13,64],C:[93,27,3]})

print(df2.corr())

print(df2.corr(spearman))

print(df2.corr(kendall))

参考

  1. ^相关性系数及其python实现 https://www.cnblogs.com/sddai/p/10332573.html


最简单的 协方差,或者apriori演算法.....其实也都不是python特有的


pandas.dataframe.corr()


首先用scipy的stats模块对数据进行正态性检验,看是否满足正态分布,若满足正态分布,用皮尔逊相关性分析,若不满足,用斯皮尔曼相关性分析。


scipy,numpy这个包了解下


推荐阅读:
相关文章