探索性分析和列联表分析的区别
探索性分析和列联表分析的区别是
一、解释性分析
解释性分析主要目的是“归因”、是面向过去的,就是通过数据的对比和计算,来解释目标与现实的差异的原因,进而找到问题(或差距)的最终原因。这种分析也是我们最常用的,比如利润的同比、环比、预算完成率、成本差异分析(价差、量差)等,都可以归属于这一类分析。
二、探索性分析
探索性分析主要目的是“预测”、是面向未来的,虽然其数据的来源也是历史的,但其目的是希望通过数据的趋势和方向,提高洞察力,最终转化为真正的商业价值。最典型的安例就是沃尔玛对消费者行为数据分析,发现了啤酒与尿布消费的关联性,将这两种商品放在一起,最终促成了经典的促销手段。
从上面的概念和举例就可以知道,数据分析中真正能够产生价值的是探索性分析,但我们财务大部分(基本可以说是所有)的分析都是解释性分析。在我看来,这有点避重就轻的意思,因为解释性分析往往是大量数据和图表的堆砌,展现的是分析人员的工作量、而不是分析人员的见解。我们有个客户曾跟我吐槽说:“财务人员每个月分析的报告内容很多,但基本上都是大家已经知道的事情,我们也知道背后的原因,希望财务能告诉我们究竟应该怎么办!?”
相对的,探索性分析需要我们对相关的数据进行细致和深入的分析,并在数据支撑下形成自己的观点与建议,最终呈现的图表和数据可能非常简单,但却一针见血、直指要害。
很多时候,少就是多,只有真正花了时间和心思的,才能去芜存菁,诚如大作家马克吐温所说--我想把信写得再短一点,可惜我没有时间!
列联表分析的基本问题是,判明所考察的各属性之间有无关联,即是否独立。如在前例中,问题是:一个人是否色盲与其性别是否有关?在r×с表中,若以pi·、p·j和pij分别表示总体中的个体属于等级Ai,属于等级Bj和同时属于Ai、Bj的概率(pi·,p·j称边缘概率,pij称格概率),“A、B两属性无关联”的假设可以表述为H0:pij=pi·p·j,(i=1,2,…,r;j=1,2,…,с),未知参数pij、pi·、p·j的最大似然估计(见点估计)分别为行和及列和(统称边缘和)
为样本大小。根据K.皮尔森(1904)的拟合优度检验或似然比检验(见假设检验),当h0成立,且一切pi·>0和p·j>0时,统计量
的渐近分布是自由度为(r-1)(с-1) 的Ⅹ分布,式中Eij=ni·n·j/n称为期望频数。当n足够大,且表中各格的Eij都不太小时,可以据此对h0作检验:若Ⅹ值足够大,就拒绝假设h0,即认为A与B有关联。在前面的色觉问题中,曾按此检验,判定出性别与色觉之间存在某种关联。
需要注意
若样本大小n不很大,则上述基于渐近分布的方法就不适用。对此,在四格表情形,R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的显著性水平,则判定所考虑的两个属性存在关联,从而拒绝h0。
鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com
图片声明:本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!