1. 从依概率收敛到f-收敛:为什么我们需要新的收敛概念?
在概率论和统计推断的日常工作中,我们最熟悉的随机变量收敛模式莫过于“依概率收敛”。简单来说,如果一串随机变量 $X_n$ 随着 $n$ 增大,其取值偏离某个固定常数 $c$ 的概率可以任意小,我们就说 $X_n$ 依概率收敛于 $c$,记作 $X_n \overset{p}{\to} c$。这个概念直观且强大,是证明大数定律、中心极限定理等经典结果的基石。然而,在实际处理复杂模型,尤其是现代高维统计和机器学习理论时,我们常常会遇到一些“尴尬”的序列:它们并不收敛于一个固定的数,但彼此之间却保持着某种“同步”或“同向”的变化趋势。比如,两个估计量的方差可能都随着样本量增大而趋于无穷,但它们的比值却稳定在一个常数附近。传统的依概率收敛无法很好地刻画这种关系,因为它要求一个固定的“靶心”,而我们的序列可能都在“移动”,甚至一起“跑向无穷远”。
这就引出了f-收敛的概念。它的核心思想非常巧妙:与其在原始尺度上纠结,不如通过一个严格递增的函数 $f$ 给所有随机变量“换个视角”。在 $f$ 变换后的空间里,我们用标准的欧几里得距离来衡量两个序列的“接近程度”。如果变换后的距离依概率趋于零,我们就说原始序列在 $f$-度量下收敛,记作 $X_n \overset{f}{\leftrightarrow} Y_n$。这个双向箭头强调了这是一种对称关系。你可以把它想象成:我们戴上了一副特殊的眼镜(函数 $f$),透过这副眼镜看去,原来那些“飘忽不定”或“一起发散”的序列,现在看起来是稳定地靠拢的。这副眼镜的选择至关重要,不同的 $f$(如对数函数、逻辑函数 $\Phi$ 等)能让我们捕捉到不同意义上的“接近”。
那么,f-收敛到底有什么用?我个人的体会是,它在处理变换稳定性和模型鲁棒性证明时尤其得心应手。例如,在证明某个基于数据变换的估计量的一致性时,我们往往需要论证“估计量的某种变换”是收敛的。如果直接处理原始估计量很困难,利用一个恰当的 $f$ 将其映射到一个行为更良好的空间,证明收敛后再利用 $f$ 的性质反推回来,常常能化繁为简。它为我们分析那些不满足传统收敛、但具有内在关联性的随机过程提供了一套严格且灵活的语言。
2. f-收敛的数学基石:定义、度量性与有界性
2.1 严格的定义与度量空间构建
让我们先来严格地定义这个新工具。设 $f: \mathbb{R} \to \mathbb{R}$ 是一个严格递增的函数。为了处理多维情况,我们约定一个简便的记号:对于向量 $\mathbf{x} = (x_1, ..., x_k) \in \mathbb{R}^k$,定义 $f(\mathbf{x}) = (f(x_1), ..., f(x_k))$,即对每个分量独立应用 $f$。基于此,我们定义f-度量为: $$ d_f(\mathbf{x}, \mathbf{y}) = | f(\mathbf{x}) - f(\mathbf{y}) |_2 $$ 其中 $| \cdot |_2$ 是标准的欧几里得范数。这个定义的直观含义很清晰:先对每个坐标进行 $f$ 变换,然后在变换后的空间中计算直线距离。
一个自然的问题是:$d_f$ 是一个合格的度量吗?答案是肯定的,并且证明过程能帮助我们理解其性质。根据度量(距离)的公理:
- 非负性:$d_f(\mathbf{x}, \mathbf{y}) \ge 0$,且 $d_f(\mathbf{x}, \mathbf{y}) = 0$ 当且仅当 $\mathbf{x} = \mathbf{y}$。这是因为 $f$ 严格递增,所以是单射,$f(\mathbf{x}) = f(\mathbf{y})$ 必然推出 $\mathbf{x} = \mathbf{y}$。
- 对称性:$d_f(\mathbf{x}, \mathbf{y}) = d_f(\mathbf{y}, \mathbf{x})$,由欧几里得范数的对称性直接可得。
- 三角不等式:$d_f(\mathbf{x}, \mathbf{z}) \le d_f(\mathbf{x}, \mathbf{y}) + d_f(\mathbf{y}, \mathbf{z})$。这是因为 $d_f(\mathbf{x}, \mathbf{z}) = |f(\mathbf{x}) - f(\mathbf{z})|_2 = |f(\mathbf{x}) - f(\mathbf{y}) + f(\mathbf{y}) - f(\mathbf{z})|_2 \le |f(\mathbf{x}) - f(\mathbf{y})|_2 + |f(\mathbf{y}) - f(\mathbf{z})|_2 = d_f(\mathbf{x}, \mathbf{y}) + d_f(\mathbf{y}, \mathbf{z})$,这里用到的正是欧几里得范数自身的三角不等式。
因此,$(\mathbb{R}^k, d_f)$ 构成了一个度量空间。这为我们谈论“收敛”奠定了严格的数学基础。基于这个度量,我们定义f-收敛:对于两列随机变量 $X_n$ 和 $Y_n$,如果 $d_f(X_n, Y_n) \overset{p}{\to} 0$,则称 $X_n$ f-收敛于 $Y_n$,记为 $X_n \overset{f}{\leftrightarrow} Y_n$。注意,这里收敛的对象是另一个随机变量序列,而非一个固定常数,这是它与传统依概率收敛的关键区别。
2.2 概率有界性:控制序列的“行为”
在建立f-收敛的运算规则时,我们常常需要对随机变量序列施加一些“有界性”条件,以确保运算后的结果依然良好。这里引入了一个比通常的“依概率有界”更灵活的概念:B-概率有界。
设 $B$ 是 $\mathbb{R}$ 上一族开区间的集合,并且满足一个“扩张”性质:对于 $B$ 中的任意区间 $(a, b)$,总能在 $B$ 中找到另一个区间 $(a‘, b’)$,使得 $a‘ < a$ 且 $b’ > b$。我们说一列随机变量 $X_n$ 是B-概率有界的,如果对于任意 $\epsilon > 0$,都存在整数 $N$ 和区间 $I \in B$,使得对所有 $n > N$,都有 $P(X_n \notin I) < \epsilon$。
这个概念有点绕,但理解其动机很重要。普通的“依概率有界”要求序列最终以高概率落在一个固定的对称区间 $(-M, M)$ 里。而 B-概率有界性允许这个“捕捉”区间来自一个预先指定的集合 $B$,并且这个集合中的区间可以相互嵌套、扩张。这提供了极大的灵活性。有三个特别重要的特例:
- (通常的)概率有界:当 $B = {(-c, c): c > 0}$ 时,就是经典定义。
- 正对数概率有界:当 $B = {(1/c, c): c > 1}$ 时。这意味着序列以高概率落在形如 $(1/c, c)$ 的区间,这个区间在乘法运算下是“封闭的”(两个这样的区间内的数相乘,结果大致还在一个类似的区间内),这对处理乘法运算至关重要。
- 平凡有界:如果 $(-\infty, \infty) \in B$,那么任何序列都自动是 B-概率有界的。这通常不是我们感兴趣的情况。
实操心得:在证明中,B-概率有界性的“扩张”性质是关键。它允许我们:当发现序列以高概率落在区间 $I_1$ 后,我们可以找到一个更大的区间 $I_2 \in B$ 将其包含。在后续处理中,如果序列稍微跑出了 $I_1$,但只要没跑出更大的 $I_2$,我们仍然可以控制其行为。这个技巧在证明f-收敛的传递性(Lemma F.18)时被反复使用。
2.3 f-收敛与有界性的关系:一个关键引理
一个非常有力且直观的结论是:如果两个序列是f-收敛的,那么它们在相同的 $B$ 意义下,要么都有界,要么都无界。这就是 Lemma F.18 的内容:若 $X_n \overset{f}{\leftrightarrow} Y_n$,则 $X_n$ 是 B-概率有界的,当且仅当 $Y_n$ 是 B-概率有界的。
这个证明的核心思想是“反证法”和区间套。假设 $X_n$ 是 B-概率有界的。对于给定的 $\epsilon$,我们先为 $X_n$ 找到一个“安全区间” $I_1 = (l_1, u_1)$。利用 $B$ 的扩张性,找到一个更大的区间 $I_2 = (l_2, u_2)$,满足 $l_2 < l_1, u_2 > u_1$。现在考虑 $Y_n$ 跑出 $I_2$ 的情况。如果 $Y_n$ 跑出了 $I_2$ 而 $X_n$ 还在 $I_1$ 内,那么由于 $f$ 是严格递增的,$f(Y_n)$ 和 $f(X_n)$ 之间的距离至少是 $\Delta = \min{f(u_2)-f(u_1), f(l_1)-f(l_2)} > 0$。但是,根据 $X_n$ 和 $Y_n$ 是f-收敛的,$f(X_n)$ 和 $f(Y_n)$ 距离大于 $\Delta$ 的概率可以控制得任意小。同时,$X_n$ 跑出 $I_1$ 的概率也很小。把这两个小概率事件加在一起,就得到了 $Y_n$ 跑出 $I_2$ 的概率也很小,从而证明了 $Y_n$ 的 B-概率有界性。这个证明展示了如何将“f-收敛”和“区间有界”这两个条件巧妙地耦合在一起。
注意事项:这个引理是后续所有复合规则的“安全网”。它告诉我们,在f-收敛的意义下,两个序列的“发散程度”或“波动范围”是相似的。因此,如果我们能对其中一个序列施加有界性条件(比如要求 $B_n$ 是概率有界的),那么通过f-收敛,另一个序列 $A_n$ 自动也满足类似的有界性。这极大地简化了分析,我们只需要对序列中的一个(通常是那个形式上更简单或假设更明确的)施加条件即可。
3. f-收敛的运算封闭性:核心复合规则详解
f-收敛理论最强大的部分在于它建立了一套运算规则,告诉我们哪些操作不会破坏f-收敛性。这就像我们知道“收敛数列的和、积仍然收敛”一样,是进行复杂渐近分析的基础工具。
3.1 抽象复合规则:一致连续性的桥梁
所有具体规则都源于一个抽象的框架(Lemma F.20)。它的设定如下:我们有四列随机变量 $A_n, B_n, C_n, D_n$,满足 $A_n \overset{f}{\leftrightarrow} B_n$ 和 $C_n \overset{f}{\leftrightarrow} D_n$。此外,$B_n$ 是 $B_1$-概率有界的,$D_n$ 是 $B_2$-概率有界的。现在考虑一个二元函数 $g: \mathbb{R}^2 \to \mathbb{R}$。关键假设是:对于 $B_1$ 和 $B_2$ 中的任意区间 $I_1, I_2$,函数 $g$ 限制在 $I_1 \times I_2$ 上,是 $(d_f, d_f)$-一致连续的。这里的 $(d_f, d_f)$-一致连续是指:对于定义域使用 $d_f$ 度量,值域也使用 $d_f$ 度量,函数满足一致连续性。
如果这些条件都满足,那么结论是:$g(A_n, C_n) \overset{f}{\leftrightarrow} g(B_n, D_n)$。
这个定理的证明思路是典型的“分解概率”思想:
- 控制大概率事件:利用 $B_n$ 和 $D_n$ 的 $B$-概率有界性(以及由 Lemma F.18 推出的 $A_n, C_n$ 的相应有界性),我们可以找到一个“好”的矩形区域 $I_1 \times I_2$,使得四个序列 $A_n, B_n, C_n, D_n$ 同时落在这个区域内的概率非常高(超过 $1-\epsilon$)。
- 用好区域的性质:在这个“好”区域 $I_1 \times I_2$ 上,函数 $g$ 是 $(d_f, d_f)$-一致连续的。这意味着,只要输入的点对 $(A_n, C_n)$ 和 $(B_n, D_n)$ 在 $d_f$ 度量下足够接近,它们的函数值 $g(A_n, C_n)$ 和 $g(B_n, D_n)$ 在 $d_f$ 度量下也会非常接近。
- 耦合两个收敛:我们知道 $(A_n, C_n)$ 和 $(B_n, D_n)$ 在二维 $d_f$ 度量下是依概率收敛的(这是由 Lemma F.19 保证的,它说f-收敛在分量上是可加的)。因此,它们以高概率非常接近。
- 综合论证:将上述两点结合。以高概率,四个点都在“好”区域内,并且两对点非常接近。那么在这个高概率事件上,函数值也会非常接近。剩下的小概率事件(点跑出好区域,或者点对不接近)的总概率可以被控制得任意小。这就证明了函数值的f-收敛。
踩坑提醒:这里的一致连续性条件是针对限制函数$g|_{I_1\times I_2}$ 的,而不是全局的 $g$。这非常重要!很多函数(比如 $g(x,y)=x+y$)在全体 $\mathbb{R}^2$ 上关于 $d_f$ 并不是一致连续的,但当定义域被限制在一个有界区间内时,由于 $f$ 的连续性,往往就能满足一致连续。这正是引入 $B$-概率有界性的意义所在:它让我们只需要在那些“大概率”出现的取值区域上检查一致连续性,从而大大放宽了对函数 $g$ 的要求。
3.2 化归为标准一致连续性:一个实用的判据
直接验证一个函数在 $d_f$ 度量下是否一致连续可能比较抽象。Lemma F.21 提供了一个极其有用的简化方法。它指出:$g$ 是 $(d_{f_1}, d_{f_2})$-一致连续的,当且仅当函数 $h(x) = f_2(g(f_1^{-1}(x)))$ 在标准欧几里得度量下是一致连续的。
这个引理的本质是“换元”。它将 $d_f$ 度量下的问题,转化到了我们更熟悉的普通欧氏空间。证明思路很直接:$d_{f_1}(x, y) = |f_1(x) - f_1(y)|2$,所以 $f_1$ 实际上建立了从原空间 $(\mathbb{R}^k, d{f_1})$ 到 $f_1(\mathbb{R}^k) \subset \mathbb{R}^k$(配备标准欧氏度量)的一个等距同构。同样,$f_2^{-1}$ 建立了从 $(\mathbb{R}, d_{f_2})$ 到 $f_2(\mathbb{R})$ 的等距。于是,研究 $g$ 在 $d_f$ 度量下的连续性,等价于研究 $h = f_2 \circ g \circ f_1^{-1}$ 在标准度量下的连续性。
实操技巧:在具体应用中,我们通常取 $f_1 = f_2 = f$,并且 $f$ 是一个性质良好的函数,比如逻辑函数 $f(x) = 1/(1+e^{-x})$ 或其反函数(logit函数)。此时,要验证 $g(x,y)=x+y$ 是否在某个矩形区域上 $(d_f, d_f)$-一致连续,就转化为验证 $h(x,y) = f(g(f^{-1}(x), f^{-1}(y)))$ 在该矩形区域(经 $f$ 变换后)上是否一致连续。由于 $h$ 通常是初等函数的复合,在闭区域上连续就能推出一致连续,验证起来就简单多了。
3.3 具体运算规则:加法、乘法、最小值与截断
基于上述抽象框架和化归技巧,我们可以推导出一系列非常实用的具体复合规则(Lemma F.25)。这里假设 $f$ 是连续、严格递增且有界的(例如标准正态分布的CDF $\Phi$)。
加法规则:若 $A_n \overset{f}{\leftrightarrow} B_n$, $C_n \overset{f}{\leftrightarrow} D_n$,且 $B_n$ 是(通常意义下)概率有界的,则 $A_n + C_n \overset{f}{\leftrightarrow} B_n + D_n$。
- 原理:利用 Lemma F.21,将问题转化为验证 $h(x,y) = f(f^{-1}(x) + f^{-1}(y))$ 在 $f$ 映射下的有界区域上的连续性。对于逻辑函数 $f$,计算可得 $h(x,y) = xy / (1 - x - y + 2xy)$。在 $x, y$ 被限制在 $(a,b) \subset (0,1)$ 时,分母有正的下界,因此 $h$ 连续,从而一致连续。
- 条件解读:“$B_n$ 概率有界”这个条件确保了我们可以将定义域限制在形如 $(-M, M) \times \mathbb{R}$ 的条带上,经过 $f$ 变换后,$x$ 分量被限制在 $(f(-M), f(M))$ 这个 $(0,1)$ 内的紧区间上,从而保证 $h$ 的一致连续性。
减法规则:与加法完全类似,条件相同,结论为 $A_n - C_n \overset{f}{\leftrightarrow} B_n - D_n$。
乘法规则:若 $A_n \overset{f}{\leftrightarrow} B_n$, $C_n \overset{f}{\leftrightarrow} D_n$,且 $B_n$ 是正对数概率有界的,则 $A_n C_n \overset{f}{\leftrightarrow} B_n D_n$。
- 原理:同样化归后,需要处理 $h(x,y) = f(f^{-1}(x) \cdot f^{-1}(y))$。对于 $f$ 为逻辑函数,这涉及到形如 $y^{\log(\frac{x}{1-x})}$ 的项。关键点在于“正对数概率有界”条件:$B_n$ 以高概率落在 $(1/c, c)$。这意味着经过 $f$ 变换后,$x$ 分量被限制在 $(f(1/c), f(c))$ 内,这是一个远离 $0.5$(即 $f(0)$)的 $(0,1)$ 的子区间。这使得 $\log(\frac{x}{1-x})$ 被限制在一个不包含 $0$ 的紧区间上,从而保证了 $h$ 表达式中幂函数 $y^z$ 的连续性(当 $y \in [0,1], z$ 在紧区间内时)。
- 为什么是这个条件?乘法运算可能放大波动。如果 $B_n$ ��是普通有界(比如在 $(-M, M)$),它可能取到 $0$ 附近的值,这使得乘积 $A_n C_n$ 可能非常小,其 $f$ 变换值会趋近于 $f(0)$,导致一致连续性难以保证。而“正对数有界”确保了 $B_n$ 远离 $0$(始终大于 $1/c$),从而避免了这种极端情况。
最小值规则:若 $A_n \overset{f}{\leftrightarrow} B_n$, $C_n \overset{f}{\leftrightarrow} D_n$,则 $\min{A_n, C_n} \overset{f}{\leftrightarrow} \min{B_n, D_n}$。此规则不需要额外的有界性条件。
- 原理:化归后,$h(x,y) = f(\min{f^{-1}(x), f^{-1}(y)}) = \min{x, y}$。这个函数在整个单位正方形 $[0,1]^2$ 上都是(关于欧氏度量)一致连续的,因此无需额外限制定义域。
截断正态分位数规则:这是一个更复杂的、但在统计推断中很有用的变换。定义 $Clip_{a,b}(x) = \max{a, \min{x, b}}$ 为截断函数。对于固定的 $b \in (0,1)$,定义函数: $$ g(x, y) = Clip_{0, \infty}\left( \Phi^{-1}\big( Clip_{0,b}(x) \cdot \Phi(y) \big) \right) $$ 若 $A_n \overset{f}{\leftrightarrow} B_n$, $C_n \overset{f}{\leftrightarrow} D_n$,则 $g(A_n, C_n) \overset{f}{\leftrightarrow} g(B_n, D_n)$。这里 $f$ 可以取 $\Phi$。
- 应用场景:这个函数模拟了这样一种操作:将 $x$ 截断到 $[0,b]$,然后乘以一个标准正态分布的累积概率 $\Phi(y)$,再求其逆分位数,最后将结果截断到非负区域。它在处理某些带有概率约束的调整估计量时会出现。
- 原理:证明的核心同样是化归。取 $f=\Phi$,经过一系列化简,$h(x,y) = \Phi(g(\Phi^{-1}(x), \Phi^{-1}(y)))$ 可以写成一个关于 $x, y$ 的连续函数(涉及 $\Phi^{-1}$ 和截断)。在 $x, y \in [0,1]$ 这个紧集上,该函数连续,故一致连续。
常见问题与排查:
- Q:为什么加法需要 $B_n$ 有界,而最小值不需要?
- A:加法的本质是“平移”,即使 $A_n$ 和 $B_n$ 很接近,如果它们整体漂移得非常大,$f(A_n+C_n)$ 和 $f(B_n+D_n)$ 的接近性也可能被破坏。有界性条件防止了这种整体漂移。而最小值运算 $\min$ 是一个“收缩”操作,它只取较小的那个值。即使输入很大,输出也被限制在两者之间,其 $f$ 变换值不会无限扩张,因此对一致连续性的要求更低,在整个空间上都满足。
- Q:在乘法规则中,如果 $B_n$ 只是普通有界而非正对数有界,结论一定不成立吗?
- A:不一定“绝对”不成立,但标准反例很容易构造。考虑 $B_n \equiv 0$(显然有界),$A_n = B_n = 0$,$C_n = D_n = n$。那么 $A_n \overset{f}{\leftrightarrow} B_n$ 和 $C_n \overset{f}{\leftrightarrow} D_n$ 都平凡地成立。但 $A_n C_n = 0$,$B_n D_n = 0 \cdot n = 0$,看起来也收敛。然而,如果我们取 $D_n‘ = 1/n$,且 $C_n’ \overset{f}{\leftrightarrow} D_n‘$,那么 $B_n D_n’ = 0$,但 $A_n C_n‘$ 的行为就难以控制。更关键的是,在证明中,当 $B_n$ 可以无限接近 $0$ 时,函数 $h(x,y)=f(f^{-1}(x)\cdot f^{-1}(y))$ 在 $x$ 接近 $f(0)$(例如 $0.5$)时可能变得不连续(导数无界),导致一致连续性丧失。因此,“正对数有界”是一个充分而非绝对必要的条件,但它是一个清晰、易验证且在实践中常见的充分条件。
4. 一致等价度量与最终收敛性
4.1 度量等价性:换一副“眼镜”看问题
有时,我们关心的 $f$-收敛是针对某个特定的 $f$(比如 $\Phi$)证明的,但我们想知道这个结论是否对其他类似的 $f$ 也成立。这就引出了一致等价度量的概念。两个度量 $d_1$ 和 $d_2$ 在集合 $M$ 上一致等价,如果恒等映射 $Id: (M, d_1) \to (M, d_2)$ 及其逆都是一致连续的。
Lemma F.23 给出了一个非常重要的结论:如果 $f_1$ 和 $f_2$ 都是连续、严格递增且有界的函数,那么它们诱导的 $d_{f_1}$ 和 $d_{f_2}$ 就是一致等价的。证明思路是借助 Lemma F.21:验证 $Id$ 的 $(d_{f_1}, d_{f_2})$-一致连续性,等价于验证 $f_2 \circ f_1^{-1}$ 在标准度量下的一致连续性。由于 $f_1$ 和 $f_2$ 都连续、有界、严格递增,它们的定义域和值域都是 $\mathbb{R}$,但 $f_1^{-1}$ 和 $f_2$ 的复合 $f_2 \circ f_1^{-1}$ 是一个定义在 $f_1(\mathbb{R})$ 上的函数。由于 $f_1$ 有界,$f_1(\mathbb{R})$ 是一个有界区间。在闭区间上,连续函数自动一致连续,因此得证。
这个结论的威力在于:它意味着对于一大类“性质良好”的 $f$(连续、严格增、有界),它们所定义的 $f$-收敛是“等价的”。也就是说,如果 $X_n \overset{f_1}{\leftrightarrow} Y_n$,那么对于任何其他满足条件的 $f_2$,也有 $X_n \overset{f_2}{\leftrightarrow} Y_n$。这给了我们选择 $f$ 的巨大自由。在证明具体运算规则时,我们可以选取一个最方便计算的 $f$(比如逻辑函数)来验证条件,而结论却适用于所有这类 $f$,包括像 $\Phi$ 这样在统计中更自然的函数。
4.2 回到经典收敛:有界序列的桥梁
最后,一个很自然的问题是:$f$-收敛和传统的依概率收敛有什么关系?Lemma F.27 给出了一个连接:如果 $f$ 连续、严格增、有界,并且 $X_n \overset{f}{\leftrightarrow} Y_n$,同时 $X_n$ 和 $Y_n$ 几乎必然被一个共同常数 $M$ 所界,那么就有 $|X_n - Y_n| \overset{p}{\to} 0$。
这个证明直观而优美。因为 $f$ 有界,其逆函数 $g = f^{-1}$ 在紧区间 $I = [f(-M), f(M)]$ 上连续,从而一致连续。$f$-收敛告诉我们 $|f(X_n) - f(Y_n)| \overset{p}{\to} 0$。由于 $X_n, Y_n \in [-M, M]$,所以 $f(X_n), f(Y_n) \in I$。根据一致连续性,$f(X_n)$ 和 $f(Y_n)$ 的微小差异,会导致 $g(f(X_n)) = X_n$ 和 $g(f(Y_n)) = Y_n$ 的差异也很小。通过 $\epsilon-\delta$ 语言严格表述,就得到了传统意义上的依概率收敛。
实操心得:这个引理在实际分析中非常有用。很多时候,我们通过 $f$-收敛证明了一些变换后的量是接近的,但最终我们关心的是原始量是否接近。如果原始序列本身是有界的(或者可以被一个不依赖于 $n$ 的常数控制),那么 $f$-收敛就直接蕴含了经典收敛。这为我们在 $f$-收敛的框架下工作,最终得到经典结论提供了路径。
5. 应用思路与避坑指南
在实际研究或阅读论文时,如何识别和应用 $f$-收敛这套工具?这里分享一些我的经验。
识别场景:当你看到两个随机序列,它们可能不收敛到固定值,但文献中声称它们“一起发散”或“具有相同的渐近阶”,或者结论是通过某个变换(如 $\Phi^{-1}$, logit)后的量给出的,就要联想到 $f$-收敛。特别是在处理比率、乘积、或者涉及边界(如概率值)的运算时。
证明策略:
- 选择恰当的 $f$:优先选择连续、严格增、有界的 $f$,如 $\Phi$ 或逻辑函数。这可以让你利用一致等价性,简化证明。
- 验证核心条件:
- f-收敛本身:通常需要利用已知的收敛性(如依概率收敛、依分布收敛加上连续映射定理)来证明 $d_f(X_n, Y_n) \overset{p}{\to} 0$。
- 有界性条件:根据你要进行的运算(加、减、乘),验证对应的序列是否满足所需的概率有界或正对数概率有界。这往往是证明中最需要技巧的部分,可能需要利用马尔可夫不等式、矩条件或其他已知性质。
- 应用复合规则:像搭积木一样,从简单的f-收敛关系出发,利用加法、乘法等规则,逐步构建出复杂表达式的f-收敛关系。
- 必要时回归经典:如果最终需要证明原始尺度上的收敛,检查序列是否有界。如果满足 Lemma F.27 的条件,就可以安全地推出经典依概率收敛。
常见陷阱:
- 忽视有界性条件:这是最常见的错误。直接对f-收敛的序列进行加法或乘法运算,而没有检查对应的“参考序列”(如 $B_n$)是否满足所需的有界性条件,会导致证明无效。务必牢记:加法/减法需要(普通)概率有界,乘法需要正对数概率有界。
- 错误理解“一致连续”的范围:函数 $g$ 不需要在整个 $\mathbb{R}^2$ 上 $(d_f, d_f)$-一致连续,只需要在那些“大概率”出现的区域(由 $B$-概率有界性确定)上一致连续即可。证明中总是先利用有界性将问题限制在一个紧集上,在紧集上连续自动蕴含一致连续。
- 混淆不同的 $f$:在同一个证明中,如果多次使用复合规则,要确保所有 $f$-收敛都是相对于同一个函数 $f$ 而言的。如果想换用不同的 $f$,需要借助一致等价性引理。
- 忽略对称性:$X_n \overset{f}{\leftrightarrow} Y_n$ 是一个对称关系。在应用引理时,哪个序列作为“$B_n$”来承担有界性条件是可以选择的。通常选择那个更容易证明有界性的序列。
f-收敛这套理论,初看可能觉得符号繁琐,但一旦掌握其核心思想——通过函数变换将复杂的渐近行为“拉回”到熟悉的收敛框架下——就会发现它是一套极其强大和优雅的工具。它尤其适合处理现代统计机器学习中那些通过链接函数(link function)、分位数变换等构建的模型。希望这篇详细的梳理,能帮助你在遇到相关理论时,不再感到畏惧,而是能将其作为你分析工具箱中一件得心应手的利器。