《机器学习》习题参考
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 绪论

1.1 基本术语

习题1.1 结合教材1.2节对机器学习基本术语的介绍,联系表1.1、图1.1、表1.2、表1.3中的4个机器学习任务(数据集),回答问题:

1.针对这些数据集,分别举例说明各任务中示例(instance)、属性(attribute)以及属性值(attribute value)的概念.

2.判断以上任务是分类(classification)任务还是回归(regression)任务.

3.针对以上任务解释泛化(generalization)的概念.

4.说明以上数据集是否满足独立同分布(independent and identically distributed,i.i.d.)假设;如都满足,举例说明在实际任务中哪些数据容易违背该假设.

表1.1 橘子数据集,“甜橘”列为标记

图1.1 动物数据集

表1.2 电影评分数据集,“评分”列为标记

表1.3 信号预测数据集,“信号值”列为标记

解答

1.1)对一个事件或对象的描述称为示例或样本(sample).若数据使用表格形式表示,每一行为一个样例(example),每行中最后一个元素为标记(label),其他元素构成示例.例如:在表1.1的橘子数据集中,第一行由(大小=大;表皮=光滑;色泽=橙色;弹性=柔软;果蒂=扁平)构成了对编号为1的橘子的描述,该数据集一共有5个示例;在图1.1动物数据集中,每一张图像就是一个示例,该数据集一共有8个示例;在表1.2的电影评分数据集中,第一行(导演=张三;演员=小明;类型=谍战;票房=20;上映日期=2月)是一个示例,该数据集一共有5个示例;在表1.3的信号预测数据集中,第一行(星期=周二;均值=5.0;方差=0.3;天气=晴)是一个示例,该数据集一共有5个示例.

2)反映事件或对象在某方面的表现或性质的事项称为属性或特征(feature).若数据使用表格形式表示,每一列对应一个属性,不同行在该列下的取值为属性值.在表1.1中,有5个属性,分别为“大小”“表皮”“色泽”“弹性”“果蒂”;在图1.1中,每张图可使用图像的长、宽、通道数进行描述,如果使用RGB格式对图像进行编码,图像可视为像素数据构成的矩阵(张量),其属性是像素的取值,表示对应位置的颜色(红、绿、蓝)强度等信息;在表1.2中,有5个属性,分别为“导演”“演员”“类型”“票房”“上映日期”;在表1.3中,有4个属性,分别为“星期”“均值”“方差”“天气”.

3)在属性上的取值称为属性值.例如:在表1.1中,属性“大小”上的取值可以为“大”或“小”,是离散值,表1.1中的所有属性都是离散的;在图1.1中,由于图像为彩色图像,如果使用RGB编码表示,像素点取值一般在0~255之间,如(224,135,157)形式的RGB三通道数值,因此该属性也可视为离散属性;在表1.2中,属性“导演”上的取值可以为“张三”“李四”“王五”,是离散的取值,属性“上映日期”的取值可以在12个月份中选取,也是离散的,而对属性“票房”的取值,可视为连续的数值;在表1.3中,属性“星期”上的取值可以为“周二”“周三”“周四”,而“均值”“方差”这两个统计量属性的取值为连续值.

2.若预测(prediction)的目标是离散值,此类学习任务称为“分类”任务;若预测的目标是连续值,此类学习任务称为“回归”任务.表1.1的橘子数据集中,预测结果只有“是”和“否”,标记为离散值,故此任务为分类任务;图1.1的动物数据集中,预测结果为每张图像的离散标记(动物的类别),故此任务为分类任务;表1.2的电影评分数据集中,尽管评分是数值类型,但考虑到评分都是整数,标记仍为离散值,故此任务可视为分类任务;表1.3的信号预测数据集中,信号值为连续数值,故此任务为回归任务.

3.针对上述数据集训练模型后,得到的模型对从未见过的示例也能进行正确的分类和回归,该能力称为模型的“泛化”能力.例如,所训练的模型在表1.1的数据集上能够正确分类表中的5个示例,当来了一个新的示例(大小=大;表皮=光滑;色泽=绿色;弹性=坚硬;果蒂=扁平)时,模型能够正确预测它是否为甜橘.类似地,对于剩余3个数据集,模型对新图像中的动物、新电影的评分以及新的观测信号值的预测效果,衡量了模型的泛化能力.

包括训练数据和测试数据.

4.假设全体样本都服从一个分布(distribution),描述了整个样本空间(sample space)的性质,数据集中的每个样本都是独立地从这个分布中采样(sampling)得到的,即称为“独立同分布”.一般而言,可以认为对橘子、动物、电影评分的样本收集是满足独立同分布的.从独立性角度考虑,可能在某些情况下后一天的信号值依赖于前一天的信号值,造成不同的样本之间存在关联,不满足独立假设,此时对新信号值的预测要考虑该信号和历史信号值的依赖关系.从同分布角度考虑,如果观众的品位随时间变化,可能无法假设几年前的电影评分数据和本年度的评分数据服从同一分布.如何应对非独立同分布数据是开放环境下机器学习的重要挑战[1].

例如,使用教材第7章介绍的朴素贝叶斯分类器训练分类模型,连续或离散属性的建模方式不同.

习题注释 本题考查对机器学习中基本概念的理解,需要注意如何将实际任务转化为机器学习问题.例如,对于给定的数据集,需要判断任务的类型(是分类还是回归)、属性值的类型(是连续还是离散).在实际应用中,这些定义往往并不那么“严格”.如对于电影评分数据集,可将“评分”视为连续数值,将该任务作为回归任务,也可以将“评分”视为离散数值,将该任务作为分类任务;属性“票房”既可作为连续属性,也可作为离散属性.值得一提的是,如电影评分预测这类类别标记具有顺序的分类问题(排序预测问题),也被称为有序回归(ordinal regression)[2-3].