机器学习-人工智能-用户分群--聚类分析
自学B站课程笔记总结:
在风投领域,如何为客群分群呢?有些时候是有标签的。如:客户是否有过欺诈、非欺诈的行为。
另外一种情况,则需要通过其他类型的特征进行判断了,如消费记录、还款记录、提现记录等。
例如,我们可以人为定义高风险客户,低风险客户、高消费客户、低消费客户。
说到聚类,就要提簇的概念,不重叠,也不覆盖的。通过定义距离,来度量相似的程度,米尼科夫斯基距离。适合数值型的变量。
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/344882051b9a69fe5d68f178ba4cff66.jpg)
距离公式
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/eb2b84388e232c486df1ad97df49c8c0.jpg)
类别性变量
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/3658cfc4dd055e8851918b92930115c8.jpg)
类别性变量转化为数值型变量
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/74b02bcf35d4babbbfd651ed4c780266.jpg)
簇间距
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/7760da4849ce31094b0a5a11d4c557ee.jpg)
数据预处理方法
如果有一些人的收入在100万,相对比较少的时候,用归一化的处理效果并不好,分母还是特别高。除此之外,新的样本还会出现比0小,或者比1大的结果。
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/6a5d88560b4883291164cd04a7d8dcc0.jpg)
衡量聚类效果好坏
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/20f34ac8893adec93297c226faad4b22.jpg)
计算误差或距离的方法
如果聚类模型做的好,则样本距离簇的整体最好。贪心策略指每一步都朝着更好的方向。
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/40dcbbf4e06a6a43aa63574ffe8a18ae.jpg)
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/410de554ab0619ceb0f3ebd01ec8f041.jpg)
先用层次聚类,选出的精度比较好。
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/4588e1ea1dd097dd908dffbd7867c9f8.jpg)
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/c24c77b0d68ce5a1f8bfd4e5b3302d9f.jpg)
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/b9684c250e5a5908ac1cda5aa1ba9a05.jpg)
假设少量样本覆盖了各种情况。
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/94914f0bce3bbcc5dee7eb66f9c18cee.jpg)
![机器学习-人工智能-用户分群--聚类分析](http://www.isolves.com/d/file/p/2020/04-28/8478d8010c3bc1a2a341900a580cb19b.jpg)