什么是分类变量?举例说明其类别。
答案:分类变量又称为定性变量,其变量值是用定性方法得到的。通常按事物的性质或属性分类。然后清点各类个数所得到的数值,表现为互不相容的类别或属性。根据类别是否有程度上的差别,又可以分为两种类型:无序分类(unordered variable)和有序(ordinal categories)。(1) 无序分类的各类别间有性质上的不同,但同类间无程度的差别。包括两种情况:①二项分类,如治疗结果按治愈和未愈分为两类,两类间互相对立。②多项分类,如某人群的血型,结果分为A、B、AB、O四种情况。表现为互不相容的多个类别。(2) 有序分类的各类别之间有程度上的差别,且排列有序,有半定量的含义,又称为半定量变量。如临床疗效按治愈、显效、好转和无效分为四级;病情分为轻、中、重三级。每个级别之间有程度上的差异。
分类变量(categorical variable)
分类变量,用于表示类别或标签
类似于维度,描述性的变量,不是单纯的连续性数值
比如:性别(男女)、省份、城市、年龄段
分类变量可以分为:
在机器学习的很多算法中,是不能识别分类变量的,我们需要将这些变量进行转换
在pandas中,进行独热编码很方便
参考: pandas函数-get_dummies
这里说明的问题,就是独热编码有些冗余,使用虚拟编码就可以解决,比如上面提高的性别,我们使用01表示男,使用10表示女,而在虚拟编码中, 可以直接使用1表示男,0表示女
再比如:
这红、黄、蓝三种颜色,其实使用2个变量就可以表示,10表示蓝色,01表示**,00就是红色了
下面这篇文章是我参考整理的,原文还介绍了很多其他内容和实例,我没有记录完整,
等后续有空再继续学习
参考: 机器学习中的特征工程——分类变量的处理
鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com
图片声明:本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!