正态分布是最受欢迎的分布之一,因为它可以应用于大多数领域。体重、身高、血压都是服从正态分布的例子。
正态分布的直方图与概率图
正态分布是有用的。根据中心极限定理,无论原始分布是什么,只要样本量足够大,从随机独立分布中抽样的平均值服从正态分布。
正态分布是钟形曲线,当然其它分布也存在钟形曲线的情况。
正态分布的概率密度函数为:
其中µ是平均值,σ是标准差,根据样本均值和样本标准差估计得出。
通常用正态概率图(Normal Probability Plot),来检验一组数据是否服从正态分布。其核心思想是:将实际观测数据的分位数与标准正态分布的理论分位数进行对比。如果数据严格服从正态分布,那么这些点将近似排列在一条直线上。这种方法比直方图更精确,因为人眼不擅长判断曲线形状,而更擅长判断直线。
标准正态分布
标准正态分布是µ=0,σ=1的特例,其概率函数为:
截断正态分布
截断正态分布是通过将随机变量从正态分布中限制在平均值以下或平均值以上或两者兼而有之而得到的概率分布。
截断正态分布的直方图与概率图
该分布在过程截断数据有着广泛的应用,例如检验称重过程中拒收重量低于规格限的产品。以下将结合检重过程,从应用、原理和统计关联三个层面进行阐述。
检重过程:物理截断的典型应用
检重过程是制造业中通过设定重量上下限来“截断”不合格品流的经典应用。其核心目标是确保出厂产品的重量符合预设标准(如法规要求或成本控制),从而在物理上“截断”了不合格品继续进入后续包装或销售渠道的可能性。
- 工作原理:自动检重秤通过输送带系统使产品在运动状态下经过高精度称重传感器,实时测量其重量。控制系统将实测重量与预设的上限和下限阈值进行比较。一旦产品重量超出此合格区间,系统会立即触发剔除装置(如气吹、推杆或分流挡板),将其从生产线上移除。这个过程实现了对数据(产品流)基于重量阈值的实时筛选与物理截断。
- 应用价值:这种“截断”直接服务于质量控制、法规合规(如满足净含量标签要求)和成本控制(减少因超重导致的“产品赠予”或因欠重导致的投诉风险)。系统通常具备数据记录功能,为质量追溯和分析提供依据。
与统计概念“截尾数据”的关联与区别
检重过程的物理截断,会在后续的数据分析中产生统计学意义上的“截尾数据”。
- 产生截尾数据:在检重过程中,被剔除的不合格品其确切重量被记录,但通常不再进入后续生命周期(如销售、使用阶段的跟踪)。如果研究目标是分析“已出厂产品”的寿命或故障率,那么这些在出厂前就被剔除的产品,其“生存时间”(在此比喻为“合格状态持续时间”)是未知的,只知道它短于被剔除的时刻。这正符合右删失(Right Censoring)数据的定义:在观察期结束时,终点事件(此处为“失效”或“淘汰”)尚未发生,只知道其发生时间晚于最后一次观测时间。在这个类比中,检重剔除点就是“最后一次观测时间”。
- 核心区别:
- 工程截断(Truncation in Process):是一个主动的、物理的筛选动作,发生在数据生成过程中。它根据明确规则(如重量限值)移除实体对象。
- 统计截尾(Censored Data):描述的是一种被动的、信息不完整的数据状态,是数据收集后的结果。例如,在可靠性测试中,部分样品在测试结束时仍未失效,我们只知道其寿命大于测试时长,这就是右删失数据。
更广泛的“截尾”应用场景
“截尾”的概念在工程和数据分析中还有其他表现形式:
- 截尾概率分布:在可靠性工程或结构分析中,某些参数(如强度、应力)理论上应为正值。为了避免正态分布抽样产生不现实的负值,可以采用截尾正态分布,将变量的定义域限制在合理的物理区间内(如大于零),从而得到更符合实际的条件分布。这与检重设定上下限在思想上是相通的,都是对变量取值范围的限制。
- 数据分析中的缩尾与截尾处理:在统计分析中,为减少极端值(异常值)的影响,常采用缩尾或截尾的方法。缩尾是将极端值替换为指定百分位数(如1%和99%)的值,保持样本量不变;而截尾则是直接删除超出指定百分位数的极端值,会减少样本量。这与检重过程的“剔除”操作在“移除”动作上类似,但目的不同:检重是为了质量控制,而数据分析中的截尾是为了提高统计模型的稳健性。
截断正态分布的概率密度函数为:
其中
折叠正态分布
折叠正态分布是和正态分布相关的概率分布。给定一个正态分布的随机变量X,其均值为μ,方差为σ2,随机变量Y=| X |呈折叠正态分布。如果只记录某个变量的大小,而不记录其符号,就可能会遇到这种情况。
折叠正态分布的一个应用是研究汽车支柱定位偏差的大小。在工程实践中,许多偏差或误差的幅值(即绝对值)是关注的重点,例如尺寸的绝对超差量、定位点的偏移距离等。当这些偏差的原始分布(考虑正负方向)近似服从正态分布时,其绝对值的分布便自然服从折叠正态分布。在汽车支柱定位过程中,由于夹具、零件本身以及装配过程存在随机误差,单个定位点在X、Y、Z任一方向上的偏差都可能呈现以理想位置为中心的正态分布。然而,当我们关心的是定位点偏离理想位置的距离(一个非负的量)时,无论偏差方向是正是负,其距离的统计规律就需要用折叠正态分布来描述。
折叠正态分布的直方图与概率图
折叠正态分布的概率密度函数为:
位置和尺度参数分别是原始分布的μ和σ。
使用技术获得参数实质上是最大似然估计过程。BIS.Net过程性能APP使用machine powered算法找到使AD值最小的参数。
关于我们
武汉库得克软件有限公司1997年成立,专注于质量管理的理念、方法和技术、统计分析算法、信息化系统开发平台的研究开发。为制造型企业提供质量管理系统信息化(数字化/智能化)总体解决方案及服务,业务遍及35个国家和地区,服务了1000+全球知名公司,是国际上“质量管理系统(QMS)”领域的开拓者。
网站技术支持
您可访问以下官方网站获取常见问题解决方法、技术资料及相关文献:武汉质量管理系统-QMS-SPC-武汉庫得克软件有限公司
电子邮件技术支持
您可通过网站留言或发送邮件至:support@qtechinternational.com.cn
电话技术支持
工作日(节假日除外)9:00–17:30 可致电咨询:0086-27-87597771,87597779,87597719