1基本概念
数据统计方法可分为两类,描述统计和推断统计。
描述统计(descriptive statistics)用来总结大型数据集(large data sets)的重要特征。数据集的重要特征包含均值、离散程度、偏度与峰度。描述统计将数据转换成信息。
推断统计(inferential statistics)根据一个小型数据集(sample)的统计特征,来对一个大的数据集进行预测(forecasts)、估计(estimates)或者判断(judgments)。概率论是推断数据的基础。本章节仅探讨描述统计数据。
研究统计学前需区别总体和样本的概念。
总体(population)是研究对象组中所有可能成员的集合(the set of all possible members of a stated group)。总体的描述性统计叫参数(parameter)。
样本(sample)可以从这个整体中抽取,并可以用样本的特征来描述总体的特征。样本的描述性统计叫统计量(statistic)。
2数据类型(Data Types)
2.1数字数据和分类数据
数字数据(Numerical/quantitative Data)具有实际测量的意义的数据(如身高、体重等。数字),可分为连续型数据和离散型数据。
连续型数据(Continuous data)是在一定区间内可以任意取值、数值是连续不断的、相邻两个数值可作无限分割(即可取无限个数值)的数据。随机变量Y取到的无限结果,yl,y2,y3…。例如,每天的降雨量(0-100厘米)是一个连续型随机变量,因为结果可能的取值有无限多,不可数,有无限可能的。
离散型数据(Discrete data)可能结果的数量是可数的,而且对于每一个可能的结果,概率是大于0的。随机变量X取到的n个有限结果,xl,x2,x3…xxx。例如,1个月之内下雨的天数是离散型随机变量,可能的结果数是有数的,最多的下雨天数就是一个月的天数,因此是可数的。
分类数据(categorical/qualitative data)是描述观测值特征的数据,可分为定类数据和定序数据。
定类数据(Nominal data)是最不精确的一种度量。所有的观测值被归类,但是类别(category)之间没有顺序分别。例如分成男女两类。
定序数据(Ordinal Scales)是比定类数据进一步的一种度量。每一个观测值都按照一个给定的特征进行排序,但顺序之间的距离并不相等。例如学历分为大学、高中、初中、小学和文盲。