(每日一题)数据集合的集中趋势

第一周-数据的描述性统计数据的集中趋势众数
#
中位数
假如数据集合包含的数值个数是基数,这么排在最中间的数值就是该数据集合的中位数 #
假如数据集合的数值个数是奇数,这么取最中间两个数值的算术平均值作为中位数
#
中位数的优势在于不受数据集合中某些极端值的影响,表现出稳定的特性 #
平均数 #
是数据中各观测值相对集中较多的中心位置
#
算术平均数 #
算术平均值是最常用的数据集中趋势指标 #
可以分为简单算术平均值和加权算术平均值 #
决定算术平均值是否适用的前提条件是,求得的算术平均值是否具有现实意义
#
优点,就是它较中位数、众数更少遭到随机诱因影响
#
缺点,是它更容易遭到极端值影响
加权平均数公式 #
几何平均数 #
用几何平均值来表示乘积组成的数据集合的集中趋势(譬如金融数据的下降率) #
多用于流程转化中的平均,例如多步骤的转化率求平均值
#
分位数
是指用分割点将一个随机变量的机率分布范围分为几个具有相同机率的连续区间
#
百分位数 #
提供了关于一组数据怎么再最小值与最大值之间分布的信息。
#
第p百分位数满足以下条件:起码有p%的观察值大于或等于该值,但是起码有(100-p)%的观察值小于等于该值 #
四分位数
人们时常须要把数据界定为四个部份,七种每一部份大概包含1/4或则说是25%的观察值。分割点被称为四分位数。 #
Q1——四分之一分位数
#
Q2——四分之二分位数 #
Q3——四分之三分位数
#
数据的离散趋势测度数值型数据残差 #
测度随机变量和其物理期望(即均值)之间的偏离程度,是借助所有数据进行估算的一种变异指标。 #
假如是总体数据,平均离差平方和称为总体残差。总体残差用埃及字母
表示,对于有N个观察值的总体而言,用 #
代表总体平均数,则总体残差的定义如下:
#
标准差 #
残差的正平方根
#
极差 #
指数据集合中最大值与最小值的差值,表示整个数据集合能否覆盖的数值距离
平均差 #
各个变量值同平均数的离差绝对值的算术平均数 #
次序数据,四方位差 #
它是上四分位数(Q3,即坐落75%)与下四分位数(Q1,即坐落25%)的差
#
四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响.
分类数据 #
异众百分比,是总体中非众数次数与总体全部次数之比。
#
换句话说几何平均数公式,异众百分比指非众字段的频数占总频数的比列
相对离散测度
离散系数 #
又称变异系数,一般以百分位数方式表示 #
在两组样本均值不同时,比较离散系数好于标准差 #
平均值接近于0的时侯,微小的扰动也会对变异系数形成巨大影响,因而导致精确度不足 #
分布的形状 #
偏态系数 #
偏态系数以平均值与中位数之差对标准差之百分比来评判偏移的程度
用SK表示偏移系数:偏态系数大于0,由于平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数小于0几何平均数公式,由于均值在众数之右,是一种右偏的分布,又称为正偏。
峰态系数
#
是对数据分布平峰或尖峰程度的度量 #
峰态系数就是机率分布函数中,与众数机率的高低有直接关系,众数机率越高,峰态系数越大
正态分布的峰态系数是3,经常估算下来的峰态系数会跟3作比较,假如大于3则具有不足的峰度,假如小于3则具有过度的峰度。总之理解为小于3比正态分布的更尖 #
在相同的标准差下,峰度系数越大,分布就有更多的极端值
#