“多元统计分析,是业务应用的重要分析工具,也是机器学习的重要基础。”
之前和大家分享过统计学相关的知识。统计学主要是针对单个变量,而日常生活中,多个变量的场景更加普遍。研究多个变量的关系、模型,就是多元分析的范畴。多元分析的很多内容其实也是机器学习的基础。之前分享的《层次聚类方法》、《K-means聚类方法》等,都属于多元分析的范畴。
01多元分析的定义多元分析,全称是多元统计分析。顾名思义,是一种针对多元数据的统计分析方法。
那什么是多元数据呢?是数据多嘛?比如有7亿用户的身高数据。
需要说明的是,这里的多元,指的是多个变量,或者说是多个信息维度。纯粹的数据量多,只是代表样本多,不一定维度多。7亿用户身高数据,那也只是身高一个维度,因此并不能称得上是多元数据。
举一个经常举的例子,鸢尾花的数据。这是一个典型的多元数据集:
数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。具体怎么预测,后续再来展开。这个预测过程,也是机器学习的重要场景之一。
02相关研究方法概述主要的多元数据的研究方法包括以下四类:数据描述、统计推断、降维分析、目标归类。
(1)数据描述分析什么是数据描述呢?
这个其实比较好理解,我们举个例子。比如说我们有一张7亿用户的user_table。表中有几十个字段,包括用户的年龄、性别、id、成交量、注册时间等等字段。
那我们该如何描述这张多元数据表呢?
数据量这么大,我们不可能一条条地去看对吧,那我们就会用比如平均数、波动性等指标来描述。或者比如研究几个字段之间的一些相关性、有没有更好的可视化方法。这就是多元数据的描述。
(2)统计推断分析这部分其实就是假设检验了。
在统计分析中也分享过假设检验的内容了,在多元分析这里,唯一的区别就是由一元的检验升级推广为多元均值向量的检验了。
举个例子,比如学生的各科学习成绩之间是否有显著差异等等。
(3)降维分析这个其实是做数据、做模型经常遇到的一个问题。
一个数据集,往往维度十分的多,但并不见得每个维度都有着足够的价值,我们要做的就是将其中最主要的维度筛选出来。有点像化简的意思。
通常的方法有两种:主成分分析法和因子分析法,具体内容我们后续再来展开。
(4)目标归类分析这里主要就是分类和聚类问题。这是做机器学习很常见的两种场景了。
分类问题,是有监督的学习,事先是知道能够分为哪些类别的。例如预测用户是男性还是女性,或者上文中的鸢尾花的预测。而聚类问题,是无监督的,并不知道用户具体属于哪些类别。
关于聚类,可以参考之前的文章《层次聚类的原理及方法》、《K-means聚类的方法及应用》。
关于分类和判别,我们后续会详细进行分享。
03常见应用场景那多元数据的统计分析有啥具体应用场景呢?这里给大家举几个例子。
(1)互联网营销相关应用比如我们可以基于历史数据预测未来的购买趋势,这样可以提前做出业务预判,领先市场提前做出动作。
比如我们可以基于用户的行为数据,锁定忠实用户,对忠实用户做更多的权益触达和用户运营;可以发掘潜力顾客,促进潜力顾客的转化。这也是一个判别分析的问题场景。
还有精准营销,根据不同人的特征给出不同的营销方案。这其中第一步就是先聚类,生成不同的人、不同的客户。包括市场细分,也是一个聚类问题。
(2)金融相关应用在金融行业,非常关注风险。那应用多元分析,可以基于消费者的特征来进行征信评估。常见的就是我们的信贷额度,能贷多少,背后都是数据模型。
还有一个常见的场景,就是如何刻画金融市场(比如股市)的波动性特征,这是统计描述的问题。还有,预测股市的涨跌,哈哈,这个比较实用一些。
关于多元分析的应用场景、定义,就先介绍这些。后面关于多元的分析方法,我们逐步展开分享,欢迎继续关注~
-END-
以上就是关于多元分析:多元数据的基础定义、研究方法和相关应用实践一名不文全部的内容,关注我们,带您了解更多相关内容。
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。