什么是哑变量( 二 )


此时,我们可以将年龄这个连续性变量进行离散化 , 按照10岁一个年龄段进行划分,如0-10、11-20、21-30、31-40等等,将每一组赋值为1、2、3、4 , 此时构建模型的回归系数就可以解释为年龄每增加10岁时对因变量的影响 。
以上赋值方式是基于一个前提,即年龄与因变量之间存在着一定的线性关系 。但有时候可能会出现以下情况,例如在年龄段较低和较高的人群中,某种疾病的死亡率较高,而在中青年人群中,死亡率却相对较低,年龄和死亡结局之间呈现一个U字型的关系,此时再将年龄段赋值为1、2、3、4就显得不太合理了 。
因此,当我们无法确定自变量和因变量之间的变化关系 , 将连续性自变量离散化时,可以考虑进行哑变量转换 。
还有一种情况,例如将BMI按照临床诊断标准分为体重过低、正常体重、超重、肥胖等几种分类时,由于不同分类之间划分的切点是不等距的 , 此时赋值为1、2、3就不太符合实际情况,也可以考虑将其转化为哑变量 。
1.含义:
哑变量(DummyVariable) , 也叫虚拟变量,引入哑变量的目的是,将不能够定量处理的变量量化,在线性回归分析中引入哑变量的目的是,可以考察定性因素对因变量的影响 , 它是人为虚设的变量,通常取值为0或1,来反映某个变量的不同属性 。对于有n个分类属性的自变量,通常需要选取1个分类作为参照 , 因此可以产生n-1个哑变量 。
如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等 。
这种“量化”通常是通过引入“哑变量”来完成的 。根据这些因素的属性类型 , 构造只取“0”或“1”的人工变量 , 通常称为哑变量(dummyvariables),记为D 。
2.举一个例子,假设变量“职业”的取值分别为:工人、农民、学生、企业职员、其他,5种选项,我们可以增加4个哑变量来代替“职业”这个变量,分别为D1(1=工人/0=非工人)、D2(1=农民/0=非农民)、D3(1=学生/0=非学生)、D4(1=企业职员/0=非企业职员),最后一个选项“其他”的信息已经包含在这4个变量中了,所以不需要再增加一个D5(1=其他/0=非其他)了 。这个过程就是引入哑变量的过程 , 其实在结合分析(ConjointAnalysis)中,就是利用哑变量来分析各个属性的效用值的 。
【什么是哑变量】此时,我们通常会将原始的多分类变量转化为哑变量,每个哑变量只代表某两个级别或若干个级别间的差异,通过构建回归模型,每一个哑变量都能得出一个估计的回归系数 , 从而使得回归的结果更易于解释,更具有实际意义 。
是 。哑变量又称为虚拟变量、虚设变量或名义变量,从名称上看就知道,它是人为虚设的变量,通常取值为0或1 , 来反映某个变量的不同属性 。011是哑变量,我们通常会将原始的多分类变量转化为哑变量,每个哑变量只代表某两个级别或若干个级别间的差异,通过构建回归模型,每一个哑变量都能得出一个估计的回归系数,从而使得回归的结果更易于解释,更具有实际意义 。

推荐阅读