统计学中的变量指的是研究对象的特征,我们有时也称为属性,例如⼈的⾝⾼、性别等。
每个变量都有变量的值和变量的类型。我们按照变量的类型对变量进⾏划分。
统计学中的变量(variables)⼤致可以分为数值变量(numrical)和分类变量(categorical)。
离散型变量(discrete):值只能⽤⾃然数或整数单位计算,其数值是间断的,相邻两个数值之间不再有其他数值,这种变量的取值⼀般使⽤计数⽅法取得。
连续型变量(continuous):在⼀定区间内可以任意取值,其数值是连续不断的,相邻两个数值可作⽆限分割,即可取⽆限个数值。如⾝⾼、绳⼦的长度等。
和离散型变量相⽐,连续型变量有“真零点”的概念,所以可以进⾏乘除操作。
分类变量⼜可以分为下⾯两类:
有序分类变量(ordinal):描述事物等级或顺序,变量值可以是数值型或字符型,可以进⽽⽐较优劣,如喜欢的程度:很喜欢、⼀般、不喜欢。
⽆序分类变量(nominal):取值之间没有顺序差别,仅做分类,⼜可分为⼆分类变量和多分类变量⼆分类变量是指将全部数据分成两个类别,如男、⼥,对、错,阴、阳等,⼆分类变量是⼀种特殊的分类变量,有其特有的分析⽅法。多分类变量是指两个以上类别,如⾎型分为A、B、AB、O。
有序分类变量和⽆需分类变量的区别是:前者对于“⽐较”操作是有意义的,⽽后者对于“⽐较”操作是没有意义的。
记住我这四种数据的等级从低到⾼依次为:⽆序分类变量(nominal) <;有序分类变量(ordinal)< 离散型数值变量(discrete)< 连续型数值变量(continuous)。
下⾯的⼀张图描述了它们之间的关系:
发布评论