Lecture7 Bayesian Nets

一、概率模型 (Probabilistic Models)

1.1 模型概述

作用: 描述世界（或其一部分）如何运作。

特性:

总是简化的：可能未考虑所有变量或变量间的所有交互。
“所有模型都是错误的；但有些是有用的。” – George E. P. Box

用途:

进行未知变量的推理（给定证据）。
示例: 解释（诊断性推理）、预测（因果性推理）。

1.2 条件独立性与链式法则 (Conditional Independence and the Chain Rule)

链式法则:

进一步地，拓展到n项：

平凡分解: 与链式法则相同。

基于条件独立性假设的分解简化:

上式想表达：条件中一些无关的相可以删去
贝叶斯网络/图模型/信念网络帮助我们表达条件独立性假设。

二、贝叶斯网络：概述

定义: 一种数据结构，能够表示变量间的依赖关系和完整的联合概率分布。

不一定是因果关系
有向无环图

问题:

完整联合分布表: 变量多时，表过大，难以明确表示和学习。

贝叶斯网络:

使用简单的局部部分（条件概率），通常可以的成对分析，来描述复杂的联合分布（模型）。
描述变量如何局部交互，局部交互链接起来形成全局的、间接的交互。

示例: 汽车贝叶斯网络 (Car Bayesian Net) - 图示说明了如电池、油量、启动等变量间的依赖关系。

三、贝叶斯网络核心内容

3.1 表示 (Representation)

3.1.1 图模型表示法 (Graphical Model Notation)

节点 (Nodes): 变量（有其域），可以是已赋值（观测到）或未赋值（未观测到）。

弧 (Arcs): 交互，指示变量间的“直接影响”。

形式上：编码条件独立性。
不需要满足因果关系。实际上只是概率传播的通路，因果写反了同样可以计算出同样的结果

3.1.2 示例 (Examples)

硬币投掷 (Coin Flips): N次独立投掷，变量间无交互（绝对独立），图中无弧。

交通 (Traffic):

变量: R (下雨), T (交通堵塞)
模型1: 独立 (R, T 分别为节点，无连接)
模型2: 下雨导致交通堵塞 (R → T) - 使用模型2的智能体更好。

3.1.3 贝叶斯网络语义 (Bayesian Net Semantics)

组成:

一组节点，每个变量一个。

一个有向无环图 (DAG)。

每个节点的条件分布 (CPT - 条件概率表)：

描述了给定其父节点各种取值组合时，该节点取值的概率。

在给定了父节点之后，其它节点的取值与子节点无关；内含条件无关性！

🌻

贝叶斯网络 = 拓扑结构 (图) + 局部条件概率 (表)

3.1.4 贝叶斯网络中的概率 (Probabilities in Bayesian Nets)

编码联合分布: 隐式地将联合分布表示为局部条件分布的乘积。

Example：Alarm Network

每个节点都有一张概率分布表；根据这些表和节点的关联关系即可写出任何一个联合概率分布👆

3.1.5 贝叶斯网络的规模 (Size of a Bayesian Net)

N个布尔变量的联合分布大小:

N个节点（每个节点最多k个父节点）的网络大小:

优点: 巨大的空间节省，更容易获取局部CPT，更快地回答查询。

注意: 只有变量完全独立的分布才能用无弧的贝叶斯网络表示。

3.1.6 因果关系 (Causality?→Not Necessarily！)

当BN反映真实因果模式时:

通常更简单（节点父节点更少）。
更容易思考和从专家处获取。

BN不必是因果的:

有时在领域内不存在因果网络（尤其当变量缺失时）。
例如：考虑变量“交通”和“屋顶滴水”。
最终的弧可能反映相关性，而非因果性。

🌻

弧的真正含义: 拓扑结构编码了一系列条件独立性陈述。

3.2 条件独立性 (Conditional Independences)

定义

X和Y独立: 或

X和Y在给定Z时条件独立:

贝叶斯网络中的假设:

除了链式法则简化带来的条件独立性假设外，通常还有额外的、可从图中读出的隐含条件独立性。

D分离 (D-separation):

一种用于判断在给定证据变量的情况下，两个节点X和Y是否条件独立的算法。

三种基本结构:

因果链 (Causal Chains):

X和Z不独立。

给定Y时，X和Z条件独立 (Y阻断了路径)。

共同原因 (Common Cause):

X和Z不独立。

给定Y时，X和Z条件独立 (Y阻断了路径)。

共同效应 (Common Effect / V-结构):

X和Y独立。

给定Z，X、Y不独立

活跃/非活跃路径 (Active / Inactive Paths)

路径：把贝叶斯网络的连边看成一条条传递概率的路径，如果相互独立则认为路径被阻断，概率不能通过路径传播

要判断X和Y在给定证据集合时是否条件独立，需要检查X到Y之间的所有无向路径。

路径活跃 (Active Path)→不独立

路径活跃的条件是：路径上的每个三元组都处于活跃状态（不条件独立，概率在路径中传播）。

因果链 (或反向)：当B未被观测时活跃

共同原因：当B未被观测时活跃

共同效应：当B或其任一后代被观测时活跃

路径非活跃/阻塞 (Inactive/Blocked Path)→独立

只要路径中有一个片段处于非活跃状态，整条路径就是非活跃的。

D分离

如果X和Y之间的所有路径都被阻塞，那么X和Y在给定时条件独立。

结构含义 (Structure Implications)

给定贝叶斯网络结构，D分离算法可以构建所有形式为的必然条件独立性列表。

判断条件独立性的例子

3.3 概率推断 (Probabilistic Inference)

3.3.1枚举推断(Inference by Enumeration)

🌻

问题：为什么枚举法非常慢？

因为你需要写出完整的联合分布，然后才能求和消去无关变量

3.3.2 变量消除 (Variable Elimination)

思想: 交替进行连接 (joining) 和边缘化 (marginalizing)。

仍然是NP难问题，但通常比枚举推断快得多。

本质上只是改变了求和符号的位置：

通用变量消除算法:

初始化: 因子列表包含所有CPT（证据已实例化）。

循环: 当仍有隐藏变量H（非查询变量Q或证据变量E）时： a. 选择一个隐藏变量H。 b. 连接 (Join) 所有提及H的因子，得到新因子。 c. 消除 (Sum out) H 从中，得到新因子，并用替换原来的那些因子。

结束: 所有隐藏变量消除后，连接剩余所有因子（此时只包含查询变量和证据变量）。

归一化: 得到。

来看一个和枚举法中同样的例子，采用数学的方法分析：

变量消除顺序 (Variable Elimination Ordering):

顺序对效率至关重要，影响过程中产生的最大因子的规模。

一个坏的顺序可能导致指数级复杂度的因子，而好的顺序可能使计算可行。

再来看一个例子：

理解因子（表格）的概念

这个表达式是指消去之后，表达式只和，有关。这个中间因子包含两个变量。在计算机计算中，这个数学表达式是以表格的形式存储的。

但是，如果首先对进行归一化，就会含有六个因子，计算复杂度大大增加

💡

计算复杂度由产生的最大因子决定；因子的大小等于其中包含的未被赋值的变量的数目

计算与空间复杂度:

由过程中产生的最大因子决定。找到最优消除顺序是NP难的。

例题

3.4 近似推断：采样 (Approximate Inference: Sampling)

🌻

通过频率逼近概率

为何采样?

学习：从未知分布中获取样本。
推断：获取样本比精确计算（如变量消除）更快，尤其对于复杂网络。

基本思想:

从采样分布S中抽取N个样本。

计算近似的后验概率

根据大数定理，该方法会收敛到真实概率P

采样的过程：

顺着贝叶斯网络的图模型，从上游节点向下游节点采样

从给定分布采样:

从上的均匀分布获取样本u。

将u转换为给定分布的一个结果（每个结果关联的一个子区间，区间大小等于其概率）。

优点:

生成样本时考虑了证据。
更多样本会反映证据所暗示的世界状态。

缺点:

证据只影响下游变量的选择，不影响上游变量。
如果上游变量的CPT(Conditional Probability Table)导致证据的概率很低，权重仍然可能非常小。

3.4.1 先验采样 (Prior Sampling)

过程:

按照拓扑顺序遍历所有变量。

从中采样。

返回样本。

特性:

生成的样本的概率等于

即BN的联合概率。

采样过程是一致的 (consistent)，即样本频率会收敛到真实概率。

应用:

估计 : 统计和的样本数，然后归一化。
估计条件概率 : 在满足的样本中统计的分布。

3.4.2 拒绝采样 (Rejection Sampling)

目标: 计算。只关心我们想要的，不遍历全体

过程:

使用先验采样生成样本

如果样本与证据不一致，则拒绝该样本

否则，保留该样本。

特性: 对于条件概率也是一致的。

缺点: 如果证据非常罕见，会拒绝大量样本，效率低下。

3.4.3 似然加权 (Likelihood Weighting)

不拒绝任何样本

解决拒绝采样问题: 证据不太可能时，避免拒绝大量样本。

过程 (计算的样本):

关键：每个样本赋予一个权重

初始化权重。

用该变量在其父节点组合下取值为观测值的概率来更新权重

返回带权重的样本。

估计: 通过对所有样本的权重求和来估计（分子是满足的样本权重和，分母是所有样本权重和）。

优点:

缺点:

证据信息只能通过权重向上游传播，而不能影响下游的采样过程
如果上游变量的CPT导致证据的概率很低，权重仍然可能非常小。

例题

3.4.4 吉布斯采样 (Gibbs Sampling)

MCMC (马尔可夫链蒙特卡洛) 方法。

过程:

初始化: 固定证据变量。随机初始化所有非证据变量。得到一个完整状态。

迭代: 重复进行 T 次（T 很大）： a. 选择一个非证据变量。 b. 基于所有其他变量的当前值（包括证据变量和其他非证据变量），从条件分布中重新采样的值。 c. 每次迭代后，得到一个样本（即当前所有变量的赋值）。

特性:

经过足够多的迭代（"burn-in"期后），生成的样本近似来自正确的后验分布。
上游和下游变量都以证据为条件。因为迭代的时候从条件分布中重新采样，考虑了证据的影响

优点:

相比似然加权，可以避免权重过小的问题，因为所有变量的采样都考虑了证据。

高效重采样: 重采样时，只需要考虑包含 的CPT（即的CPT以及其子女的CPT中涉及的部分）