这两天讲到了分析数据的离散程度时,可用用极差或方差来进行刻画。下课后,有位同学来找我说:老师,是不是极差越小,这组数据越稳定啊?我说是啊。于是学生说,那还算方差干什么?又麻烦、又难算。其实这里就涉及到了一个问题,既然极差和方差都能表示数据的离散程度,那为什么还要计算方差呢?
要说明这个问题,我们可以举一个简单的例子:
有两组数据(1)1、7、7、7、13、7
(2)4、5、6、8、9、10
这两组数据的平均数都是7,第一组数据的极差是12,第二组数据的极差是6。如果从极差的角度来看,似乎第二组数据更加稳定,但是直观上却感觉好像第一组数据更加稳定,通过计算方差可以得到,第一组数据的方差是3.46,第二组数据的方差是2.16。会造成这种错觉的原因是因为第一组数据存在极端值,如果不考虑极端值得话,当然是第一组更加稳定,而一组数据的极端值对极差的影响是非常巨大的,因为极差虽然计算简便,但是确定也想当明显,只用到了一组数据中的2个值,肯定容易受到极端值的影响。而相比较而言方差就更加科学,因为方差用到了每一个数据,计算了每一个数据偏差的平均水平。
如果将上面的例子稍作修改,就更能体现极差的缺陷,如:
(1)1、7、7、7、13、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7、7
(2)4、5、6、8、9、10、4、5、6、8、9、10、4、5、6、8、9、10、4、5、6、8、9、10
这两组数据的平均数都是7,第一组数据的极差还是12,第二组数据的极差还是6。而第一组的方差是2,第二组的方差是2.16。可以这样理解,当数据足够多时,数据中极端值对方差的影响将会越来越小,所以在表示离散程度时,方差的使用更加科学。