--
--
--
1332

CFA一级数量之频率分布知识点解析


频率分布(frequency distribution)是以图表方式展示统计数据的方法,频率分布便于分析大型数据集。频率分布通过把统计数据归类到不同的组、区间、类别,来总结这些数据。下面的步骤说明如何去构建一个频率分布(construct a frequency distribution)

第一步定义区间(Define the intervals)。每个区间,必须有一个上界和下界,而且不同的区间不能重复,也不能遗漏任何的可能观测值。也就是说,每一个观测值,都能够被归类到一个区间里面,而且只能够被归类到一个区间,即满足遍历互斥条件。

区间的数目是一个重要的考虑因素。如果所用区间数量太少,数据可能被高度概括,重要的特性可能会丢失,从另一方面说,如果使用的区间太多的话,数据可能不能够被充分的表述。

第二步:把观测值归入区间(Tally the observations)。在区间被定义之后,必须把每个观测值归类到对应的区间中。

第三步:对观测进行计数(Count the observations)。归类完成之后,应该对落到每个区间中的观测值进行计数。频率,就是落到某个给定区间中的观测值的数量。

(1)绝对频率。每个区间数据的数量。

(2)相对频率。把每个区间的绝对频率,除以观测值的总个数。是落到每一个区间的观测值个数占总的观测值个数的百分比。

(3)累积频率。从最低的区间开始到最高区间累加绝对或者相对频率,可以得到累积绝对频率(Cumulative absolute frequency)和累积相对频率(Cumulative relative frequency)。

(4)直方图(histogram)和频率多边形(frequency polygon)

直方图(Histogram)是绝对频率分布的图形表示。用柱状的图形把连续的数据的频率分布(frequency distribution)展现出来。直方图的横轴表示区间,纵轴表示落在某一区间的绝对频率。直方图能够让我们快速发现,观测值主要集中在什么区域。

频率多边形(frequency polygon),每个区间的中值被标记在横轴上,而绝对频率的数值被标记在纵轴上。然后把每一个点连起来。频率多边形可增加数据的连贯性(degree of continuity)。