多项选择题
如下图所示,样本中有三个类别C1、C2、C3,采用KNN分类算法,图中给出了被测数据对象X和Y在特征空间中的映射点,以X、Y为中心的圆表示对应K个与X、Y最相近点的分布情况。依据KNN的多数表决规则,X归为C3类,Y归为C2类,但感觉这个分类结果与图示有些偏差,直观上X和Y都比较接近C1。你觉得可以采取哪些措施来改进算法以避免这种情况发生?()
A.X的问题是K值选择太小,可以适当增大K值,Y的问题是K值过大,可以适当减小K值
B.Y的分类问题可能是由于样本数不平衡造成,可以考虑压缩C2类别的样本数量
C.Y的问题可以考虑用加权多数表决法解决
D.X的问题可能是C3类含比较异常的样本,去除异常样本数据可以提高分类准确度
点击查看答案
相关考题
-
多项选择题
采用KNN分类,表中列出了与被测对象距离最近的5个结果,采用欧式距离,有2个类别“0”、“1”。请选择以下正确的选项()。
A.采用多数表决法,K=3时,结果为“0”类,K=5时为“1”类
B.用加权多数表决法,直接用距离倒数作为权值。结果与A一致
C.用加权多数表决法,直接用距离倒数作为权值。K=3和K=5时,结果均为“0”类
D.采用加权表决规则后,K值越大,准确性越高 -
单项选择题
假设一门课将一部分内容安排成了线上内容,包括课程相关的视频和集中讨论两部分。对于线上内容学生可以自愿选择是否参加,不影响总成绩。学期结束时,老师希望对学生在线上的学习情况用KNN进行分析,老师能够统计到每个学生线上收看视频的时间,以及参与集中讨论的时间。现在老师希望做两个分类工作:(1)根据学生看视频和参与讨论的时间,将学生分成“自主学习型”(看视频较多)和“集中学习型”(参与讨论较多)两类。(2)根据学生参与线上内容的程度,将学生分成“课堂学习型”和“课堂+线上学习型”。试问对于上述两个分类工作,如果考虑欧式距离和余弦相似度,应该选择哪种距离函数比较合适?()
A.(1)和(2)都选择余弦相似度
B.(1)选择欧式距离,(2)选择余弦相似度
C.(1)选择余弦相似度,(2)选欧式距离
D.(1)和(2)都选欧式距离 -
多项选择题
假设有如下16个数据点:1,2,5,11,15,18,19,21,25,27,29,32,33,37,40,57。要聚成3类(从左到右,分别称为第一类,第二类,第三类),初始中心为10,20,30。试根据算法流程完成聚类。根据你的聚类结果,下面哪些说法是正确的?()
A.根据初始中心,最开始1,2,5,11,15同属第一类,但后来15属于第二类了
B.聚类结束时,第二类最大,有7个数
C.聚类结束时,第三类的中心大于35
D.聚类结束时,11也属于第二类了
