从事质量行业的朋友一定经常需要对数据进行分析,这也是一项最基础的技能。那么你知道几种数据相关性分析的方法呢?
做数据分析时,为了提炼观点,相关性分析是必不可少,而且尤为重要的一个环节。但是,对于不同类型的数据,相关性分析的方法都各不相同。本文,主要按照不同的数据类型,来对各种相关性分析方法进行梳理总结。
相关性分析是指对两个或多个具备相关性的变量元素进行分析,相关性不等于因果性。
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
(2)根据假设计算得出每种情况的理论值,根据理论值与实际值的差别,计算得到卡方值 及 自由度
卡方值越大,P值越小,变量相关的可能性越大,当P=0.05,否定原假设,认为变量相关。
信息增益越大,表示引入条件X之后,不纯度减少得越多。信息增益越大,则两个变量之间的相关性越大。
假设,某个变量存在大量的不同值,例如ID,引入ID后,每个子节点的不纯度都为0,则信息增益减少程度达到最大。所以,当不同变量的取值数量差别很大时,引入取值多的变量,信息增益更大。因此,使用信息增益率,考虑到分支个数的影响。
协方差,表达了两个随机变量的协同变化关系。如果两个变量不相关,则协方差为0。
协方差只能对两组数据进行相关性分析,当有两组以上数据时就需要使用协方差矩阵。
协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。但无法对相关的密切程度进行度量。当我们面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数。
相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。
线性相关系数必须建立在因变量与自变量是线性的关系基础上,否则线性相关系数是无意义的。
将连续变量离散化,然后,使用离散与离散变量相关性分析的方法来分析相关性。
使用画箱形图的方法,看离散变量取不同值,连续变量的均值与方差及取值分布情况。
如果,离散变量取不同值,对应的连续变量的箱形图差别不大,则说明,离散变量取不同值对连续变量的影响不大,相关性不高;反之,相关性高。
免责声明:本文系网络转载,版权归原作者所有。所转载文章并不代表本公众号赞同其观点和对其真实性负责。但因转载众多,无法确认真正原始作者,故仅标明转载来源。如涉及作品版权问题,请及时联系我们,我们将删除内容以保证您的权益!
关注“质量开讲”,您可以回复1-10任意数字,或以下关键词,查看质量专题。
工业4.0;CPK;PPK;SPC;统计过程控制;柏拉图;帕累托图;五大工具;APQP;PPAP;改善;改进;提升;变更管理;质量成本;QCM;测量;MSA;QSB;8D;控制图;鱼骨图;ISO;质量管理;质量管理体系;抽样;检验;检测;食品安全;食品饮料;HACCP;QC七大手法;新QC七大手 法;旧QC七大手法;管理制度大全;质量大全;IPQC;制程品管;来料;进料;QA;QC;QFD;FMEA;ERP;PDCA;直通率;质量归零;纠正措施;实验设计;六西格玛;精益生产;精益管理;车间管理;车间现场管理;生产管理;5S;6S;供应链;供应商;SQE;多品种;小批量;JIT;准时制生产方式;无库存生产方式;零库存;可靠性;可 靠性分析;标准;认证;丰田;奥迪;宝马;玛莎拉蒂;audit;奥迪特;宝洁;三星;审核;内审;外审;绩效;汽车;华为;田口方法;零缺陷;QC小组;质量看板;看板管理;德国制造;日本制造;中国制造;美国制造;质量会议;生产流程;质量考核;制造业智能;智能制造;SPC问答;常见SPC问题……
您仅需在质量开讲的主页对话框中输入您感兴趣的关键词例如 Cpk、SPC、六西格玛、精益生产、SQE等等关键词。系统会自动给您回复哦!