数据分析必掌握的统计学知识,为什么数据分析师要学统计学
发布:小编
此文是《10周入门数据分析》系列的第7篇
想了解学习路线,可以先阅读 学习计划 | 10周入门数据分析
统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。
大部分的数据分析,都会用到统计方面的以下知识,可以重点学习:
基本的统计量:均值、中位数、众数、方差、标准差、百分位数等
概率分布:几何分布、二项分布、泊松分布、正态分布等
总体和样本:了解基本概念,抽样的概念
置信区间与假设检验:如何进行验证分析
相关性与回归分析:一般数据分析的基本模型
通过基本的统计量,你可以进行更多元化的可视化,以实现更加精细化的数据分析。这个时候也需要你去了解更多的Excel函数来实现基本的计算,或者python、R里面一些对应的可视化方法。
有了总体和样本的概念,你就知道在面对大规模数据的时候,怎样去进行抽样分析。
你也可以应用假设检验的方法,对一些感性的假设做出更加精确地检验。
利用回归分析的方法,你可以对未来的一些数据、缺失的数据做基本的预测。
了解统计学的原理之后,你不一定能够通过工具实现,那么你需要去对应的找网上找相关的实现方法,也可以看书。先推荐一本非常简单的:吴喜之-《统计学·从数据到结论》。也可以看《商务与经济统计》,结合业务能更容易理解。
另外,如何精力允许,请掌握一些主流算法的原理,比如线性回归、逻辑回归、决策树、神经网络、关联分析、聚类、协同过滤、随机森林。再深入一点,还可以掌握文本分析、深度学习、图像识别等相关的算法。关于这些算法,不仅需要了解其原理,你最好可以流畅地阐述出来,还需要你知晓其在各行业的一些应用场景。如果现阶段不是工作刚需,可不作为重点。
本文算是一个知识点汇总,不做细致展开,让大家了解统计学有哪几大块,每一类分别用于什么样的分析场景。后面几篇会以实际案例的方式,细致讲讲描述性统计、概率分布等。
知识点汇总:
1.集中趋势
2.变异性
3.归一化
4.正态分布
5.抽样分布
6.估计
7.假设检验
8.T检验
一、集中趋势
1.众数
出现频率最高的数;
2.中位数
把样本值排序,分布在最中间的值;
样本总数为奇数时,中位数为第(n+1)/2个值;
样本总数为偶数时,中位数是第n/2个,第(n/2)+1个值的平均数;
3.平均数
所有数的总和除以样本数量;
现在大家接触最多的概念应该是平均数,但有时候,平均数会因为某些极值的出现收到很大影响。举个小例子,你们班有20人,大家收入差不多,19人都是5000左右,但是有1个同学创业成功了,年入1个亿,这时候统计你们班同学收入的“平均数”就是500万了,这也很好的解释了,每年各地的平均收入数据出炉,小伙伴们直呼给祖国拖后腿了,那是因为大家收入被平均了,此时,“中位数”更能合理的反映真实的情况;
二、变异性
1.四分位数
上面说到了“中位数”,把样本分成了2部分,再找个这2部分各自的“中位数”,也就把样本分为了4个部分,其中1/4处的值记为Q1,2/4处的值记为Q2,3/4处的值记为Q3
2.四分位距 IQR=Q3-Q1

3.异常值
小于Q1-1.5(IQR)或者大于Q3+1.5(IQR);
对于异常值,我们在数据处理的环节就要剔除;
4.方差

5.平方偏差
方差的算术平方根
6.贝塞尔矫正:修正样本方差
实际在计算方差时,分母要用n-1,而不是样本数量n。原因在于,比如在高斯分布中,我们抽取一部分的样本,用样本的方差表示满足高斯分布的大样本数据集的方差。由于样本主要是落在x=u中心值附近,那么样本如果用如下公式算方差,那么预测方差一定小于大数据集的方差(因为高斯分布的边沿抽取的数据也很少)。为了能弥补这方面的缺陷,那么我们把公式的n改为n-1,以此来提高方差的数值,这种方法叫贝塞尔矫正系数。
三、归一化
1.标准分数
一个给定分数 距离 平均数 多少个标准差?
标准分数是一种可以看出某分数在分布中相对位置的方法。
标准分数能够真实的反映一个分数距离平均数的相对标准距离。

四、正态分布
1.定义:随机变量X服从一个数学期望为μ,方差为σ⊃2;的正态分布,记为N(μ,σ⊃2;)
随机取一个样本,有68.3%的概率位于距离均值μ有1个标准差σ内;
有95.4%的概率位于距离均值μ有2个标准差σ内;
有99.7%的概率位于距离均值μ有3个标准差σ内;

五、抽样分布
1.中心极限定理
设从均值为μ,方差为σ⊃2;的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ⊃2;/n的正态分布
2.抽样分布
设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有N·n种抽法,即可以组成N·n不同的样本,在不重复抽样时,共有N·n个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:在重置抽样时,样本均值的方差为总体方差的1/n。
举个例子:
48盆MM豆,计算出每盆有几个蓝色的MM豆,48个数据构成了总体样本。然后随机选择五盆,计算五盆中含有蓝色MM豆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。

六、估计
1. 误差界限

2. 置信度
We are some % sure the true population parameter falls within a specific range
我们有百分之多少确信总体中的值落在一个特定范围内;
一般情况下,取95%的置信度就可以;
3. 置信区间

七、假设检验

1.问题:什么是显著性水平?
显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,也就是Type I Error
A Type II Error is when you fail to reject the null when it is actually false.


2. 如何选择备选检验和零假设?
一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致;
同时将研究者想收集证据证明其不正确的假设作为原假设H0
八、T检验
1. 主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。
流程如下:

是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著;
一般检验水准α取0.05即可;
计算检验统计量的方法根据样本形式不同;
2. 独立样本T检验:

问题:为什么T检验查表时候要n-1?
样本均值替代总体均值损失了一个自由度
3. 配对样本t检验
分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值,这里出现了配对

样本误差(Standard Error)


4. Pooled variance 合并方差
当样本平均数不一样,但实际上认为他们的方差是一样的时候,需要合并方差
不要被公式吓到,他的本质是两个样本方差加权平均


5. Cohen’s d
效应量(effect size):提示组间真正的差异占统计学差异的比例,值越大,组间差异越可靠。


此文是《10周入门数据分析》系列的第7篇。
想了解学习路线,可以先行阅读“ 学习计划 | 10周入门数据分析
版权声明:本文来自用户投稿,不代表【百发生活】立场,本平台所发表的文章、图片属于原权利人所有,因客观原因,或会存在不当使用的情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系(邮箱:)我们将及时处理,共同维护良好的网络创作环境。
大家都在看
vivo手机的一些隐藏实用功能
数码极客vivo手机算是后来居上的典范,现在在手机的地位也算是处在比较高的位置,所以用户量也很大,下面就一起来看看这些你可能不知道的vivo隐藏功能。1、网络权限很多软件习惯在后台偷跑进程,不但浪费电量还浪费流量,真的很气人。选择设置一下网络权限,不给它们后台运行的机会就能解决。操作步骤
干货cad制图大神总结的经验大全
数码极客前言大家好,我是林总,今天我们一起来看下CAD制图有那些知识点,下面我们一起来了解一下!正文一、基础部分在图形表达时,如果没有特殊说明,均以毫米为单位。光滑度确定:工具→选项→显示-圆弧和圆的平滑度 为20000(注:最大值)。右键功能取消:工具→选项→用户系统配置→绘图区域中显
word最实用的几个技巧一看就会
数码极客高效的办公技巧是我们每个人都希望掌握的,但有很多实用技巧却被忽略了,今天给大家推荐5个实用但鲜为人知的技巧。1、将经常使用的文档固定在“最近使用的文档”位置有的文档是我们需要经常打开的,如果打开其他一些文档,新的文档会覆盖旧的文档,这样查找之前的文档就会比较麻烦,这时就可以通过固
wps自带公文模板最新,wps公文模板
数码极客IT之家 10 月 14 日消息,今日,金山办公宣布正式发布 WPS 公文版。金山办公表示,WPS 公文版面向党政机关用户,在 WPS 专业版的基础上,提供公文模式、公文模板、公文转换等辅助功能。据介绍,WPS 公文版拥有四大核心亮点,包括国标规范更智能、跑版“零容忍”、“全能”
igame geforce rtx 4060 ti
数码极客笔者作为一个 ITX 爱好者,每个月都要装一台 ITX 主机玩玩。在 RTX 40 系列显卡还没发布的时候,市面上能选到的最好的单风扇显卡 iGame GeForce RTX 3060 Ti Mini 了。而在 RTX 40 系列显卡发布之际,笔者就觉得今年单风扇显卡大有可为。因
手机的plus pro max都是什么意思
数码极客关注智能手机的朋友应该都知道,目前各个手机品牌在推出某款机型的时候,往往发布的都不止一款,比如iPhone13、iPhone13 Pro、iPhone13 Pro Max;国内品牌亦是如此,比如小米12、小米12 Pro、小米12S等等。看到这不仅有很多人产生疑问,这些后缀究竟代
vip自动续费在哪里取消,各个平台怎样关闭vip续费功能
数码极客致像我一样心大的男孩女孩的一封信如果你喜欢用一些软件看剧,听歌或者干其他的,一定要注意「是否自动续费」我5天内被扣了30块钱,就因为「没取消」自动续费!!!这是爱奇艺会员的自动续费[虎]这是芒果会员的自动续费我也不知道自己怎么开通的自动续费,可能是话费套餐里送的VIP导致的(这我
流程图软件有哪些,流程图最好用的软件
数码极客流程图软件有哪些?流程图软件是一种帮助用户创建流程图和图表的工具。它们通常用于描述工作流程、组织结构、数据流或其他类型的流程。这些软件可以帮助用户更好地理解和展示复杂的信息和流程,从而提高工作的效率和质量。以下是一些常见的流程图软件:Microsoft Visio 是一款流程图软
笔记本电脑字体大小怎么设置
数码极客以下是在Windows 10操作系统中设置笔记本电脑字体大小的步骤:1. 打开“设置”菜单。您可以在Windows任务栏上找到设置图标,也可以使用Windows键 + I快捷键打开设置菜单。2. 在设置菜单中,单击“系统”。3. 在“系统”菜单中,单击“显示”。4. 在“显示”选
word如何快速排版页眉,word横版竖版页眉如何不干扰
数码极客Hello大家好,我是帮帮。今天跟大家分享一下word长文档不同页眉设置技巧,排版布局快手操作,打印应用不加班。有个好消息!为了方便大家更快的掌握技巧,寻找捷径。请大家点击文章末尾的“了解更多”,在里面找到并关注我,里面有海量各类模板素材免费下载,我等着你噢^^<——非常重
pdf怎么删除页面?几个步骤轻松搞定
数码极客PDF怎么删除页面呢?人们经常使用PDF文件。当我们浏览一个PDF文件的时候,发现有一页的内容不符合要求或者没有必要。想删除应该怎么做?大家都知道PDF文件不能直接上编辑,那么我们可以用什么手段删除文件的页面呢?今天就和大家分享一个删除PDF文件页面的方法。有兴趣的小伙伴们快来学
photoshop最好的版本是哪个
数码极客为大家区分一下,Photoshop带CC和不带CC的区别:Photoshop私信小编PS,即可获得软件安装包。图像处理、编辑、通道、图层、路径综合运用;图像色彩的校正;各种特效滤镜的使用;特效字的制作;图像输出与优化等,灵活运用图层风格,流体变形及褪底和蒙板,制作出千变万化的图像