使用余弦相似度对贷款者贷款行为的风险进行评估,指导其做出风险最小的决策。
思想就是使用简单的余弦定理来计算数据的余弦相似度,从而进行分类。 首先介绍下余弦相似度
上面公式中分子表示两个向量内积,分母表示两个向量的模的乘积
由上式可推导出两向量之间的cos值,公式如下
由cos图像可知,当角度越接近于0,cos的值越接近于1,所以我们可以将数据进行向量化,计算数据间的余弦相似度,数据越相似,其cos的值越接近于1。
- 对训练数据进行向量化处理
- 确定要分类的数量,即准备分成几类
- 在每一类中各随机选取一条记录作为初始中心向量
- 遍历所有训练数据,对于训练数据i,分别计算训练数据i与各个类别的中心向量的余弦相似度
- 将训练数据i分到余弦相似度最接近于1的类别,并重新计算该类的中心向量
- 遍历完成后,保存各类中心向量,训练结束
- 对测试数据进行向量化处理
- 计算测试数据与各类中心向量的余弦相似度
- 取余弦相似度最接近于1的类别作为预测结果
- 计算测试准确率,测试结束
《数学之美》-吴军