f-收敛：超越依概率收敛，处理现代统计与机器学习中的复杂渐近行为-平芜编程栈

1. 从依概率收敛到f-收敛：为什么我们需要新的收敛概念？

在概率论和统计推断的日常工作中，我们最熟悉的随机变量收敛模式莫过于“依概率收敛”。简单来说，如果一串随机变量 $X_n$ 随着 $n$ 增大，其取值偏离某个固定常数 $c$ 的概率可以任意小，我们就说 $X_n$ 依概率收敛于 $c$，记作 $X_n \overset{p}{\to} c$。这个概念直观且强大，是证明大数定律、中心极限定理等经典结果的基石。然而，在实际处理复杂模型，尤其是现代高维统计和机器学习理论时，我们常常会遇到一些“尴尬”的序列：它们并不收敛于一个固定的数，但彼此之间却保持着某种“同步”或“同向”的变化趋势。比如，两个估计量的方差可能都随着样本量增大而趋于无穷，但它们的比值却稳定在一个常数附近。传统的依概率收敛无法很好地刻画这种关系，因为它要求一个固定的“靶心”，而我们的序列可能都在“移动”，甚至一起“跑向无穷远”。

这就引出了f-收敛的概念。它的核心思想非常巧妙：与其在原始尺度上纠结，不如通过一个严格递增的函数 $f$ 给所有随机变量“换个视角”。在 $f$ 变换后的空间里，我们用标准的欧几里得距离来衡量两个序列的“接近程度”。如果变换后的距离依概率趋于零，我们就说原始序列在 $f$-度量下收敛，记作 $X_n \overset{f}{\leftrightarrow} Y_n$。这个双向箭头强调了这是一种对称关系。你可以把它想象成：我们戴上了一副特殊的眼镜（函数 $f$），透过这副眼镜看去，原来那些“飘忽不定”或“一起发散”的序列，现在看起来是稳定地靠拢的。这副眼镜的选择至关重要，不同的 $f$（如对数函数、逻辑函数 $\Phi$ 等）能让我们捕捉到不同意义上的“接近”。

那么，f-收敛到底有什么用？我个人的体会是，它在处理变换稳定性和模型鲁棒性证明时尤其得心应手。例如，在证明某个基于数据变换的估计量的一致性时，我们往往需要论证“估计量的某种变换”是收敛的。如果直接处理原始估计量很困难，利用一个恰当的 $f$ 将其映射到一个行为更良好的空间，证明收敛后再利用 $f$ 的性质反推回来，常常能化繁为简。它为我们分析那些不满足传统收敛、但具有内在关联性的随机过程提供了一套严格且灵活的语言。

2. f-收敛的数学基石：定义、度量性与有界性

2.1 严格的定义与度量空间构建

让我们先来严格地定义这个新工具。设 $f: \mathbb{R} \to \mathbb{R}$ 是一个严格递增的函数。为了处理多维情况，我们约定一个简便的记号：对于向量 $\mathbf{x} = (x_1, ..., x_k) \in \mathbb{R}^k$，定义 $f(\mathbf{x}) = (f(x_1), ..., f(x_k))$，即对每个分量独立应用 $f$。基于此，我们定义f-度量为： $$ d_f(\mathbf{x}, \mathbf{y}) = | f(\mathbf{x}) - f(\mathbf{y}) |_2 $$ 其中 $| \cdot |_2$ 是标准的欧几里得范数。这个定义的直观含义很清晰：先对每个坐标进行 $f$ 变换，然后在变换后的空间中计算直线距离。

一个自然的问题是：$d_f$ 是一个合格的度量吗？答案是肯定的，并且证明过程能帮助我们理解其性质。根据度量（距离）的公理：

非负性：$d_f(\mathbf{x}, \mathbf{y}) \ge 0$，且 $d_f(\mathbf{x}, \mathbf{y}) = 0$ 当且仅当 $\mathbf{x} = \mathbf{y}$。这是因为 $f$ 严格递增，所以是单射，$f(\mathbf{x}) = f(\mathbf{y})$ 必然推出 $\mathbf{x} = \mathbf{y}$。
对称性：$d_f(\mathbf{x}, \mathbf{y}) = d_f(\mathbf{y}, \mathbf{x})$，由欧几里得范数的对称性直接可得。
三角不等式：$d_f(\mathbf{x}, \mathbf{z}) \le d_f(\mathbf{x}, \mathbf{y}) + d_f(\mathbf{y}, \mathbf{z})$。这是因为 $d_f(\mathbf{x}, \mathbf{z}) = |f(\mathbf{x}) - f(\mathbf{z})|_2 = |f(\mathbf{x}) - f(\mathbf{y}) + f(\mathbf{y}) - f(\mathbf{z})|_2 \le |f(\mathbf{x}) - f(\mathbf{y})|_2 + |f(\mathbf{y}) - f(\mathbf{z})|_2 = d_f(\mathbf{x}, \mathbf{y}) + d_f(\mathbf{y}, \mathbf{z})$，这里用到的正是欧几里得范数自身的三角不等式。

因此，$(\mathbb{R}^k, d_f)$ 构成了一个度量空间。这为我们谈论“收敛”奠定了严格的数学基础。基于这个度量，我们定义f-收敛：对于两列随机变量 $X_n$ 和 $Y_n$，如果 $d_f(X_n, Y_n) \overset{p}{\to} 0$，则称 $X_n$ f-收敛于 $Y_n$，记为 $X_n \overset{f}{\leftrightarrow} Y_n$。注意，这里收敛的对象是另一个随机变量序列，而非一个固定常数，这是它与传统依概率收敛的关键区别。

2.2 概率有界性：控制序列的“行为”

在建立f-收敛的运算规则时，我们常常需要对随机变量序列施加一些“有界性”条件，以确保运算后的结果依然良好。这里引入了一个比通常的“依概率有界”更灵活的概念：B-概率有界。

设 $B$ 是 $\mathbb{R}$ 上一族开区间的集合，并且满足一个“扩张”性质：对于 $B$ 中的任意区间 $(a, b)$，总能在 $B$ 中找到另一个区间 $(a‘, b’)$，使得 $a‘ < a$ 且 $b’ > b$。我们说一列随机变量 $X_n$ 是B-概率有界的，如果对于任意 $\epsilon > 0$，都存在整数 $N$ 和区间 $I \in B$，使得对所有 $n > N$，都有 $P(X_n \notin I) < \epsilon$。

这个概念有点绕，但理解其动机很重要。普通的“依概率有界”要求序列最终以高概率落在一个固定的对称区间 $(-M, M)$ 里。而 B-概率有界性允许这个“捕捉”区间来自一个预先指定的集合 $B$，并且这个集合中的区间可以相互嵌套、扩张。这提供了极大的灵活性。有三个特别重要的特例：

（通常的）概率有界：当 $B = {(-c, c): c > 0}$ 时，就是经典定义。
正对数概率有界：当 $B = {(1/c, c): c > 1}$ 时。这意味着序列以高概率落在形如 $(1/c, c)$ 的区间，这个区间在乘法运算下是“封闭的”（两个这样的区间内的数相乘，结果大致还在一个类似的区间内），这对处理乘法运算至关重要。
平凡有界：如果 $(-\infty, \infty) \in B$，那么任何序列都自动是 B-概率有界的。这通常不是我们感兴趣的情况。

实操心得：在证明中，B-概率有界性的“扩张”性质是关键。它允许我们：当发现序列以高概率落在区间 $I_1$ 后，我们可以找到一个更大的区间 $I_2 \in B$ 将其包含。在后续处理中，如果序列稍微跑出了 $I_1$，但只要没跑出更大的 $I_2$，我们仍然可以控制其行为。这个技巧在证明f-收敛的传递性（Lemma F.18）时被反复使用。

2.3 f-收敛与有界性的关系：一个关键引理

一个非常有力且直观的结论是：如果两个序列是f-收敛的，那么它们在相同的 $B$ 意义下，要么都有界，要么都无界。这就是 Lemma F.18 的内容：若 $X_n \overset{f}{\leftrightarrow} Y_n$，则 $X_n$ 是 B-概率有界的，当且仅当 $Y_n$ 是 B-概率有界的。

这个证明的核心思想是“反证法”和区间套。假设 $X_n$ 是 B-概率有界的。对于给定的 $\epsilon$，我们先为 $X_n$ 找到一个“安全区间” $I_1 = (l_1, u_1)$。利用 $B$ 的扩张性，找到一个更大的区间 $I_2 = (l_2, u_2)$，满足 $l_2 < l_1, u_2 > u_1$。现在考虑 $Y_n$ 跑出 $I_2$ 的情况。如果 $Y_n$ 跑出了 $I_2$ 而 $X_n$ 还在 $I_1$ 内，那么由于 $f$ 是严格递增的，$f(Y_n)$ 和 $f(X_n)$ 之间的距离至少是 $\Delta = \min{f(u_2)-f(u_1), f(l_1)-f(l_2)} > 0$。但是，根据 $X_n$ 和 $Y_n$ 是f-收敛的，$f(X_n)$ 和 $f(Y_n)$ 距离大于 $\Delta$ 的概率可以控制得任意小。同时，$X_n$ 跑出 $I_1$ 的概率也很小。把这两个小概率事件加在一起，就得到了 $Y_n$ 跑出 $I_2$ 的概率也很小，从而证明了 $Y_n$ 的 B-概率有界性。这个证明展示了如何将“f-收敛”和“区间有界”这两个条件巧妙地耦合在一起。

注意事项：这个引理是后续所有复合规则的“安全网”。它告诉我们，在f-收敛的意义下，两个序列的“发散程度”或“波动范围”是相似的。因此，如果我们能对其中一个序列施加有界性条件（比如要求 $B_n$ 是概率有界的），那么通过f-收敛，另一个序列 $A_n$ 自动也满足类似的有界性。这极大地简化了分析，我们只需要对序列中的一个（通常是那个形式上更简单或假设更明确的）施加条件即可。

3. f-收敛的运算封闭性：核心复合规则详解

f-收敛理论最强大的部分在于它建立了一套运算规则，告诉我们哪些操作不会破坏f-收敛性。这就像我们知道“收敛数列的和、积仍然收敛”一样，是进行复杂渐近分析的基础工具。

3.1 抽象复合规则：一致连续性的桥梁

所有具体规则都源于一个抽象的框架（Lemma F.20）。它的设定如下：我们有四列随机变量 $A_n, B_n, C_n, D_n$，满足 $A_n \overset{f}{\leftrightarrow} B_n$ 和 $C_n \overset{f}{\leftrightarrow} D_n$。此外，$B_n$ 是 $B_1$-概率有界的，$D_n$ 是 $B_2$-概率有界的。现在考虑一个二元函数 $g: \mathbb{R}^2 \to \mathbb{R}$。关键假设是：对于 $B_1$ 和 $B_2$ 中的任意区间 $I_1, I_2$，函数 $g$ 限制在 $I_1 \times I_2$ 上，是 $(d_f, d_f)$-一致连续的。这里的 $(d_f, d_f)$-一致连续是指：对于定义域使用 $d_f$ 度量，值域也使用 $d_f$ 度量，函数满足一致连续性。

如果这些条件都满足，那么结论是：$g(A_n, C_n) \overset{f}{\leftrightarrow} g(B_n, D_n)$。

这个定理的证明思路是典型的“分解概率”思想：

控制大概率事件：利用 $B_n$ 和 $D_n$ 的 $B$-概率有界性（以及由 Lemma F.18 推出的 $A_n, C_n$ 的相应有界性），我们可以找到一个“好”的矩形区域 $I_1 \times I_2$，使得四个序列 $A_n, B_n, C_n, D_n$ 同时落在这个区域内的概率非常高（超过 $1-\epsilon$）。
用好区域的性质：在这个“好”区域 $I_1 \times I_2$ 上，函数 $g$ 是 $(d_f, d_f)$-一致连续的。这意味着，只要输入的点对 $(A_n, C_n)$ 和 $(B_n, D_n)$ 在 $d_f$ 度量下足够接近，它们的函数值 $g(A_n, C_n)$ 和 $g(B_n, D_n)$ 在 $d_f$ 度量下也会非常接近。
耦合两个收敛：我们知道 $(A_n, C_n)$ 和 $(B_n, D_n)$ 在二维 $d_f$ 度量下是依概率收敛的（这是由 Lemma F.19 保证的，它说f-收敛在分量上是可加的）。因此，它们以高概率非常接近。
综合论证：将上述两点结合。以高概率，四个点都在“好”区域内，并且两对点非常接近。那么在这个高概率事件上，函数值也会非常接近。剩下的小概率事件（点跑出好区域，或者点对不接近）的总概率可以被控制得任意小。这就证明了函数值的f-收敛。

踩坑提醒：这里的一致连续性条件是针对限制函数$g|_{I_1\times I_2}$ 的，而不是全局的 $g$。这非常重要！很多函数（比如 $g(x,y)=x+y$）在全体 $\mathbb{R}^2$ 上关于 $d_f$ 并不是一致连续的，但当定义域被限制在一个有界区间内时，由于 $f$ 的连续性，往往就能满足一致连续。这正是引入 $B$-概率有界性的意义所在：它让我们只需要在那些“大概率”出现的取值区域上检查一致连续性，从而大大放宽了对函数 $g$ 的要求。

3.2 化归为标准一致连续性：一个实用的判据

直接验证一个函数在 $d_f$ 度量下是否一致连续可能比较抽象。Lemma F.21 提供了一个极其有用的简化方法。它指出：$g$ 是 $(d_{f_1}, d_{f_2})$-一致连续的，当且仅当函数 $h(x) = f_2(g(f_1^{-1}(x)))$ 在标准欧几里得度量下是一致连续的。

这个引理的本质是“换元”。它将 $d_f$ 度量下的问题，转化到了我们更熟悉的普通欧氏空间。证明思路很直接：$d_{f_1}(x, y) = |f_1(x) - f_1(y)|2$，所以 $f_1$ 实际上建立了从原空间 $(\mathbb{R}^k, d{f_1})$ 到 $f_1(\mathbb{R}^k) \subset \mathbb{R}^k$（配备标准欧氏度量）的一个等距同构。同样，$f_2^{-1}$ 建立了从 $(\mathbb{R}, d_{f_2})$ 到 $f_2(\mathbb{R})$ 的等距。于是，研究 $g$ 在 $d_f$ 度量下的连续性，等价于研究 $h = f_2 \circ g \circ f_1^{-1}$ 在标准度量下的连续性。

实操技巧：在具体应用中，我们通常取 $f_1 = f_2 = f$，并且 $f$ 是一个性质良好的函数，比如逻辑函数 $f(x) = 1/(1+e^{-x})$ 或其反函数（logit函数）。此时，要验证 $g(x,y)=x+y$ 是否在某个矩形区域上 $(d_f, d_f)$-一致连续，就转化为验证 $h(x,y) = f(g(f^{-1}(x), f^{-1}(y)))$ 在该矩形区域（经 $f$ 变换后）上是否一致连续。由于 $h$ 通常是初等函数的复合，在闭区域上连续就能推出一致连续，验证起来就简单多了。

3.3 具体运算规则：加法、乘法、最小值与截断

基于上述抽象框架和化归技巧，我们可以推导出一系列非常实用的具体复合规则（Lemma F.25）。这里假设 $f$ 是连续、严格递增且有界的（例如标准正态分布的CDF $\Phi$）。

加法规则：若 $A_n \overset{f}{\leftrightarrow} B_n$， $C_n \overset{f}{\leftrightarrow} D_n$，且 $B_n$ 是（通常意义下）概率有界的，则 $A_n + C_n \overset{f}{\leftrightarrow} B_n + D_n$。
- 原理：利用 Lemma F.21，将问题转化为验证 $h(x,y) = f(f^{-1}(x) + f^{-1}(y))$ 在 $f$ 映射下的有界区域上的连续性。对于逻辑函数 $f$，计算可得 $h(x,y) = xy / (1 - x - y + 2xy)$。在 $x, y$ 被限制在 $(a,b) \subset (0,1)$ 时，分母有正的下界，因此 $h$ 连续，从而一致连续。
- 条件解读：“$B_n$ 概率有界”这个条件确保了我们可以将定义域限制在形如 $(-M, M) \times \mathbb{R}$ 的条带上，经过 $f$ 变换后，$x$ 分量被限制在 $(f(-M), f(M))$ 这个 $(0,1)$ 内的紧区间上，从而保证 $h$ 的一致连续性。
减法规则：与加法完全类似，条件相同，结论为 $A_n - C_n \overset{f}{\leftrightarrow} B_n - D_n$。
乘法规则：若 $A_n \overset{f}{\leftrightarrow} B_n$， $C_n \overset{f}{\leftrightarrow} D_n$，且 $B_n$ 是正对数概率有界的，则 $A_n C_n \overset{f}{\leftrightarrow} B_n D_n$。
- 原理：同样化归后，需要处理 $h(x,y) = f(f^{-1}(x) \cdot f^{-1}(y))$。对于 $f$ 为逻辑函数，这涉及到形如 $y^{\log(\frac{x}{1-x})}$ 的项。关键点在于“正对数概率有界”条件：$B_n$ 以高概率落在 $(1/c, c)$。这意味着经过 $f$ 变换后，$x$ 分量被限制在 $(f(1/c), f(c))$ 内，这是一个远离 $0.5$（即 $f(0)$）的 $(0,1)$ 的子区间。这使得 $\log(\frac{x}{1-x})$ 被限制在一个不包含 $0$ 的紧区间上，从而保证了 $h$ 表达式中幂函数 $y^z$ 的连续性（当 $y \in [0,1], z$ 在紧区间内时）。
- 为什么是这个条件？乘法运算可能放大波动。如果 $B_n$ ��是普通有界（比如在 $(-M, M)$），它可能取到 $0$ 附近的值，这使得乘积 $A_n C_n$ 可能非常小，其 $f$ 变换值会趋近于 $f(0)$，导致一致连续性难以保证。而“正对数有界”确保了 $B_n$ 远离 $0$（始终大于 $1/c$），从而避免了这种极端情况。
最小值规则：若 $A_n \overset{f}{\leftrightarrow} B_n$， $C_n \overset{f}{\leftrightarrow} D_n$，则 $\min{A_n, C_n} \overset{f}{\leftrightarrow} \min{B_n, D_n}$。此规则不需要额外的有界性条件。
- 原理：化归后，$h(x,y) = f(\min{f^{-1}(x), f^{-1}(y)}) = \min{x, y}$。这个函数在整个单位正方形 $[0,1]^2$ 上都是（关于欧氏度量）一致连续的，因此无需额外限制定义域。
截断正态分位数规则：这是一个更复杂的、但在统计推断中很有用的变换。定义 $Clip_{a,b}(x) = \max{a, \min{x, b}}$ 为截断函数。对于固定的 $b \in (0,1)$，定义函数： $$ g(x, y) = Clip_{0, \infty}\left( \Phi^{-1}\big( Clip_{0,b}(x) \cdot \Phi(y) \big) \right) $$ 若 $A_n \overset{f}{\leftrightarrow} B_n$， $C_n \overset{f}{\leftrightarrow} D_n$，则 $g(A_n, C_n) \overset{f}{\leftrightarrow} g(B_n, D_n)$。这里 $f$ 可以取 $\Phi$。
- 应用场景：这个函数模拟了这样一种操作：将 $x$ 截断到 $[0,b]$，然后乘以一个标准正态分布的累积概率 $\Phi(y)$，再求其逆分位数，最后将结果截断到非负区域。它在处理某些带有概率约束的调整估计量时会出现。
- 原理：证明的核心同样是化归。取 $f=\Phi$，经过一系列化简，$h(x,y) = \Phi(g(\Phi^{-1}(x), \Phi^{-1}(y)))$ 可以写成一个关于 $x, y$ 的连续函数（涉及 $\Phi^{-1}$ 和截断）。在 $x, y \in [0,1]$ 这个紧集上，该函数连续，故一致连续。

常见问题与排查：

Q：为什么加法需要 $B_n$ 有界，而最小值不需要？
- A：加法的本质是“平移”，即使 $A_n$ 和 $B_n$ 很接近，如果它们整体漂移得非常大，$f(A_n+C_n)$ 和 $f(B_n+D_n)$ 的接近性也可能被破坏。有界性条件防止了这种整体漂移。而最小值运算 $\min$ 是一个“收缩”操作，它只取较小的那个值。即使输入很大，输出也被限制在两者之间，其 $f$ 变换值不会无限扩张，因此对一致连续性的要求更低，在整个空间上都满足。
Q：在乘法规则中，如果 $B_n$ 只是普通有界而非正对数有界，结论一定不成立吗？
- A：不一定“绝对”不成立，但标准反例很容易构造。考虑 $B_n \equiv 0$（显然有界），$A_n = B_n = 0$，$C_n = D_n = n$。那么 $A_n \overset{f}{\leftrightarrow} B_n$ 和 $C_n \overset{f}{\leftrightarrow} D_n$ 都平凡地成立。但 $A_n C_n = 0$，$B_n D_n = 0 \cdot n = 0$，看起来也收敛。然而，如果我们取 $D_n‘ = 1/n$，且 $C_n’ \overset{f}{\leftrightarrow} D_n‘$，那么 $B_n D_n’ = 0$，但 $A_n C_n‘$ 的行为就难以控制。更关键的是，在证明中，当 $B_n$ 可以无限接近 $0$ 时，函数 $h(x,y)=f(f^{-1}(x)\cdot f^{-1}(y))$ 在 $x$ 接近 $f(0)$（例如 $0.5$）时可能变得不连续（导数无界），导致一致连续性丧失。因此，“正对数有界”是一个充分而非绝对必要的条件，但它是一个清晰、易验证且在实践中常见的充分条件。

4. 一致等价度量与最终收敛性

4.1 度量等价性：换一副“眼镜”看问题

有时，我们关心的 $f$-收敛是针对某个特定的 $f$（比如 $\Phi$）证明的，但我们想知道这个结论是否对其他类似的 $f$ 也成立。这就引出了一致等价度量的概念。两个度量 $d_1$ 和 $d_2$ 在集合 $M$ 上一致等价，如果恒等映射 $Id: (M, d_1) \to (M, d_2)$ 及其逆都是一致连续的。

Lemma F.23 给出了一个非常重要的结论：如果 $f_1$ 和 $f_2$ 都是连续、严格递增且有界的函数，那么它们诱导的 $d_{f_1}$ 和 $d_{f_2}$ 就是一致等价的。证明思路是借助 Lemma F.21：验证 $Id$ 的 $(d_{f_1}, d_{f_2})$-一致连续性，等价于验证 $f_2 \circ f_1^{-1}$ 在标准度量下的一致连续性。由于 $f_1$ 和 $f_2$ 都连续、有界、严格递增，它们的定义域和值域都是 $\mathbb{R}$，但 $f_1^{-1}$ 和 $f_2$ 的复合 $f_2 \circ f_1^{-1}$ 是一个定义在 $f_1(\mathbb{R})$ 上的函数。由于 $f_1$ 有界，$f_1(\mathbb{R})$ 是一个有界区间。在闭区间上，连续函数自动一致连续，因此得证。

这个结论的威力在于：它意味着对于一大类“性质良好”的 $f$（连续、严格增、有界），它们所定义的 $f$-收敛是“等价的”。也就是说，如果 $X_n \overset{f_1}{\leftrightarrow} Y_n$，那么对于任何其他满足条件的 $f_2$，也有 $X_n \overset{f_2}{\leftrightarrow} Y_n$。这给了我们选择 $f$ 的巨大自由。在证明具体运算规则时，我们可以选取一个最方便计算的 $f$（比如逻辑函数）来验证条件，而结论却适用于所有这类 $f$，包括像 $\Phi$ 这样在统计中更自然的函数。

4.2 回到经典收敛：有界序列的桥梁

最后，一个很自然的问题是：$f$-收敛和传统的依概率收敛有什么关系？Lemma F.27 给出了一个连接：如果 $f$ 连续、严格增、有界，并且 $X_n \overset{f}{\leftrightarrow} Y_n$，同时 $X_n$ 和 $Y_n$ 几乎必然被一个共同常数 $M$ 所界，那么就有 $|X_n - Y_n| \overset{p}{\to} 0$。

这个证明直观而优美。因为 $f$ 有界，其逆函数 $g = f^{-1}$ 在紧区间 $I = [f(-M), f(M)]$ 上连续，从而一致连续。$f$-收敛告诉我们 $|f(X_n) - f(Y_n)| \overset{p}{\to} 0$。由于 $X_n, Y_n \in [-M, M]$，所以 $f(X_n), f(Y_n) \in I$。根据一致连续性，$f(X_n)$ 和 $f(Y_n)$ 的微小差异，会导致 $g(f(X_n)) = X_n$ 和 $g(f(Y_n)) = Y_n$ 的差异也很小。通过 $\epsilon-\delta$ 语言严格表述，就得到了传统意义上的依概率收敛。

实操心得：这个引理在实际分析中非常有用。很多时候，我们通过 $f$-收敛证明了一些变换后的量是接近的，但最终我们关心的是原始量是否接近。如果原始序列本身是有界的（或者可以被一个不依赖于 $n$ 的常数控制），那么 $f$-收敛就直接蕴含了经典收敛。这为我们在 $f$-收敛的框架下工作，最终得到经典结论提供了路径。

5. 应用思路与避坑指南

在实际研究或阅读论文时，如何识别和应用 $f$-收敛这套工具？这里分享一些我的经验。

识别场景：当你看到两个随机序列，它们可能不收敛到固定值，但文献中声称它们“一起发散”或“具有相同的渐近阶”，或者结论是通过某个变换（如 $\Phi^{-1}$， logit）后的量给出的，就要联想到 $f$-收敛。特别是在处理比率、乘积、或者涉及边界（如概率值）的运算时。

证明策略：

选择恰当的 $f$：优先选择连续、严格增、有界的 $f$，如 $\Phi$ 或逻辑函数。这可以让你利用一致等价性，简化证明。
验证核心条件：
- f-收敛本身：通常需要利用已知的收敛性（如依概率收敛、依分布收敛加上连续映射定理）来证明 $d_f(X_n, Y_n) \overset{p}{\to} 0$。
- 有界性条件：根据你要进行的运算（加、减、乘），验证对应的序列是否满足所需的概率有界或正对数概率有界。这往往是证明中最需要技巧的部分，可能需要利用马尔可夫不等式、矩条件或其他已知性质。
应用复合规则：像搭积木一样，从简单的f-收敛关系出发，利用加法、乘法等规则，逐步构建出复杂表达式的f-收敛关系。
必要时回归经典：如果最终需要证明原始尺度上的收敛，检查序列是否有界。如果满足 Lemma F.27 的条件，就可以安全地推出经典依概率收敛。

常见陷阱：

忽视有界性条件：这是最常见的错误。直接对f-收敛的序列进行加法或乘法运算，而没有检查对应的“参考序列”（如 $B_n$）是否满足所需的有界性条件，会导致证明无效。务必牢记：加法/减法需要（普通）概率有界，乘法需要正对数概率有界。
错误理解“一致连续”的范围：函数 $g$ 不需要在整个 $\mathbb{R}^2$ 上 $(d_f, d_f)$-一致连续，只需要在那些“大概率”出现的区域（由 $B$-概率有界性确定）上一致连续即可。证明中总是先利用有界性将问题限制在一个紧集上，在紧集上连续自动蕴含一致连续。
混淆不同的 $f$：在同一个证明中，如果多次使用复合规则，要确保所有 $f$-收敛都是相对于同一个函数 $f$ 而言的。如果想换用不同的 $f$，需要借助一致等价性引理。
忽略对称性：$X_n \overset{f}{\leftrightarrow} Y_n$ 是一个对称关系。在应用引理时，哪个序列作为“$B_n$”来承担有界性条件是可以选择的。通常选择那个更容易证明有界性的序列。

f-收敛这套理论，初看可能觉得符号繁琐，但一旦掌握其核心思想——通过函数变换将复杂的渐近行为“拉回”到熟悉的收敛框架下——就会发现它是一套极其强大和优雅的工具。它尤其适合处理现代统计机器学习中那些通过链接函数（link function）、分位数变换等构建的模型。希望这篇详细的梳理，能帮助你在遇到相关理论时，不再感到畏惧，而是能将其作为你分析工具箱中一件得心应手的利器。