一、概率模型 (Probabilistic Models)
1.1 模型概述
- 作用: 描述世界(或其一部分)如何运作。
- 特性:
- 总是简化的:可能未考虑所有变量或变量间的所有交互。
- “所有模型都是错误的;但有些是有用的。” – George E. P. Box
- 用途:
- 进行未知变量的推理(给定证据)。
- 示例: 解释(诊断性推理)、预测(因果性推理)。

1.2 条件独立性与链式法则 (Conditional Independence and the Chain Rule)
链式法则:
进一步地,拓展到n项:
- 平凡分解: 与链式法则相同。
- 基于条件独立性假设的分解简化:
- 上式想表达:条件中一些无关的相可以删去
- 贝叶斯网络/图模型/信念网络帮助我们表达条件独立性假设。
二、贝叶斯网络:概述
- 定义: 一种数据结构,能够表示变量间的依赖关系和完整的联合概率分布。
- 不一定是因果关系
- 有向无环图
- 问题:
- 完整联合分布表: 变量多时,表过大,难以明确表示和学习。
- 贝叶斯网络:
- 使用简单的局部部分(条件概率),通常可以的成对分析,来描述复杂的联合分布(模型)。
- 描述变量如何局部交互,局部交互链接起来形成全局的、间接的交互。
- 示例: 汽车贝叶斯网络 (Car Bayesian Net) - 图示说明了如电池、油量、启动等变量间的依赖关系。

三、贝叶斯网络核心内容
3.1 表示 (Representation)
3.1.1 图模型表示法 (Graphical Model Notation)
- 节点 (Nodes): 变量(有其域),可以是已赋值(观测到)或未赋值(未观测到)。
- 弧 (Arcs): 交互,指示变量间的“直接影响”。
- 形式上:编码条件独立性。
- 不需要满足因果关系。实际上只是概率传播的通路,因果写反了同样可以计算出同样的结果
3.1.2 示例 (Examples)
- 硬币投掷 (Coin Flips): N次独立投掷,变量间无交互(绝对独立),图中无弧。
- 交通 (Traffic):
- 变量: R (下雨), T (交通堵塞)
- 模型1: 独立 (R, T 分别为节点,无连接)
- 模型2: 下雨导致交通堵塞 (R → T) - 使用模型2的智能体更好。

3.1.3 贝叶斯网络语义 (Bayesian Net Semantics)
- 组成:
- 一组节点,每个变量一个。
- 一个有向无环图 (DAG)。
- 每个节点的条件分布 (CPT - 条件概率表):
描述了给定其父节点各种取值组合时,该节点取值的概率。
在给定了父节点之后,其它节点的取值与子节点无关;内含条件无关性!

贝叶斯网络 = 拓扑结构 (图) + 局部条件概率 (表)
3.1.4 贝叶斯网络中的概率 (Probabilities in Bayesian Nets)
- 编码联合分布: 隐式地将联合分布表示为局部条件分布的乘积。
Example:Alarm Network


每个节点都有一张概率分布表;根据这些表和节点的关联关系即可写出任何一个联合概率分布👆
3.1.5 贝叶斯网络的规模 (Size of a Bayesian Net)
- N个布尔变量的联合分布大小:
- N个节点(每个节点最多k个父节点)的网络大小:
- 优点: 巨大的空间节省,更容易获取局部CPT,更快地回答查询。
- 注意: 只有变量完全独立的分布才能用无弧的贝叶斯网络表示。

3.1.6 因果关系 (Causality?→Not Necessarily!)
- 当BN反映真实因果模式时:
- 通常更简单(节点父节点更少)。
- 更容易思考和从专家处获取。
- BN不必是因果的:
- 有时在领域内不存在因果网络(尤其当变量缺失时)。
- 例如:考虑变量“交通”和“屋顶滴水”。
- 最终的弧可能反映相关性,而非因果性。
- 弧的真正含义: 拓扑结构编码了一系列条件独立性陈述。
3.2 条件独立性 (Conditional Independences)
定义
- X和Y独立: 或
- X和Y在给定Z时条件独立:
- 贝叶斯网络中的假设:
- 除了链式法则简化带来的条件独立性假设外,通常还有额外的、可从图中读出的隐含条件独立性。
D分离 (D-separation):
- 一种用于判断在给定证据变量的情况下,两个节点X和Y是否条件独立的算法。
- 三种基本结构:
- 因果链 (Causal Chains):
- X和Z不独立。
- 给定Y时,X和Z条件独立 (Y阻断了路径)。
- 共同原因 (Common Cause):
- X和Z不独立。
- 给定Y时,X和Z条件独立 (Y阻断了路径)。
- 共同效应 (Common Effect / V-结构):
- X和Y独立。
- 给定Z,X、Y不独立



活跃/非活跃路径 (Active / Inactive Paths)
路径:把贝叶斯网络的连边看成一条条传递概率的路径,如果相互独立则认为路径被阻断,概率不能通过路径传播
要判断X和Y在给定证据集合时是否条件独立,需要检查X到Y之间的所有无向路径。
- 路径活跃 (Active Path)→不独立
路径活跃的条件是:路径上的每个三元组都处于活跃状态(不条件独立,概率在路径中传播)。
因果链 (或反向):当B未被观测时活跃
共同原因 :当B未被观测时活跃
共同效应 :当B或其任一后代被观测时活跃

- 路径非活跃/阻塞 (Inactive/Blocked Path)→独立
只要路径中有一个片段处于非活跃状态,整条路径就是非活跃的。
- D分离
如果X和Y之间的所有路径都被阻塞,那么X和Y在给定时条件独立。
- 结构含义 (Structure Implications)
给定贝叶斯网络结构,D分离算法可以构建所有形式为的必然条件独立性列表。

判断条件独立性的例子


3.3 概率推断 (Probabilistic Inference)
3.3.1枚举推断(Inference by Enumeration)

问题:为什么枚举法非常慢?
因为你需要写出完整的联合分布,然后才能求和消去无关变量

3.3.2 变量消除 (Variable Elimination)
思想: 交替进行连接 (joining) 和边缘化 (marginalizing)。
仍然是NP难问题,但通常比枚举推断快得多。
本质上只是改变了求和符号的位置:

通用变量消除算法:
- 初始化: 因子列表包含所有CPT(证据已实例化)。
- 循环: 当仍有隐藏变量H(非查询变量Q或证据变量E)时: a. 选择一个隐藏变量H。 b. 连接 (Join) 所有提及H的因子,得到新因子 。 c. 消除 (Sum out) H 从 中,得到新因子 ,并用 替换原来的那些因子。
- 结束: 所有隐藏变量消除后,连接剩余所有因子(此时只包含查询变量和证据变量)。
- 归一化: 得到 。

来看一个和枚举法中同样的例子,采用数学的方法分析:


变量消除顺序 (Variable Elimination Ordering):


- 顺序对效率至关重要,影响过程中产生的最大因子的规模。
- 一个坏的顺序可能导致指数级复杂度的因子,而好的顺序可能使计算可行。
再来看一个例子:



- 理解因子(表格)的概念
这个表达式是指消去之后,表达式只和,有关。这个中间因子包含两个变量。在计算机计算中,这个数学表达式是以表格的形式存储的。
但是,如果首先对进行归一化,就会含有六个因子,计算复杂度大大增加
计算复杂度由产生的最大因子决定;因子的大小等于其中包含的未被赋值的变量的数目
- 计算与空间复杂度:
- 由过程中产生的最大因子决定。找到最优消除顺序是NP难的。
例题



3.4 近似推断:采样 (Approximate Inference: Sampling)

通过频率逼近概率
- 为何采样?
- 学习:从未知分布中获取样本。
- 推断:获取样本比精确计算(如变量消除)更快,尤其对于复杂网络。
- 基本思想:
- 从采样分布S中抽取N个样本。
- 计算近似的后验概率
- 根据大数定理,该方法会收敛到真实概率P
- 采样的过程:
- 顺着贝叶斯网络的图模型,从上游节点向下游节点采样
从给定分布采样:
- 从上的均匀分布获取样本u。
- 将u转换为给定分布的一个结果(每个结果关联的一个子区间,区间大小等于其概率)。
- 优点:
- 生成样本时考虑了证据。
- 更多样本会反映证据所暗示的世界状态。
- 缺点:
- 证据只影响下游变量的选择,不影响上游变量。
- 如果上游变量的CPT(Conditional Probability Table)导致证据的概率很低,权重仍然可能非常小。
3.4.1 先验采样 (Prior Sampling)
- 过程:
- 按照拓扑顺序遍历所有变量 。
- 从 中采样 。
- 返回样本 。
- 特性:
- 生成的样本 的概率等于
- 采样过程是一致的 (consistent),即样本频率会收敛到真实概率。
- 应用:
- 估计 : 统计 和 的样本数,然后归一化。
- 估计条件概率 : 在满足 的样本中统计 的分布。
即BN的联合概率。
3.4.2 拒绝采样 (Rejection Sampling)
- 目标: 计算 。只关心我们想要的,不遍历全体
- 过程:
- 使用先验采样生成样本
- 如果样本与证据 不一致,则拒绝该样本
- 否则,保留该样本。
- 特性: 对于条件概率也是一致的。
- 缺点: 如果证据 非常罕见,会拒绝大量样本,效率低下。
3.4.3 似然加权 (Likelihood Weighting)
不拒绝任何样本
- 解决拒绝采样问题: 证据不太可能时,避免拒绝大量样本。
- 过程 (计算 的样本):
- 关键:每个样本赋予一个权重
- 初始化权重 。
- 用该变量在其父节点组合下取值为观测值的概率来更新权重
- 返回带权重的样本 。
- 估计: 通过对所有样本的权重求和来估计(分子是满足的样本权重和,分母是所有样本权重和)。
- 优点:

- 缺点:
- 证据信息只能通过权重向上游传播,而不能影响下游的采样过程
- 如果上游变量的CPT导致证据的概率很低,权重仍然可能非常小。
例题



3.4.4 吉布斯采样 (Gibbs Sampling)
- MCMC (马尔可夫链蒙特卡洛) 方法。
- 过程:
- 初始化: 固定证据变量 。随机初始化所有非证据变量 。得到一个完整状态。
- 迭代: 重复进行 T 次(T 很大): a. 选择一个非证据变量 。 b. 基于所有其他变量的当前值(包括证据变量和其他非证据变量),从条件分布 中重新采样 的值。 c. 每次迭代后,得到一个样本(即当前所有变量的赋值)。
- 特性:
- 经过足够多的迭代("burn-in"期后),生成的样本近似来自正确的后验分布 。
- 上游和下游变量都以证据为条件。因为迭代的时候从条件分布中重新采样,考虑了证据的影响
- 优点:
- 相比似然加权,可以避免权重过小的问题,因为所有变量的采样都考虑了证据。
- 高效重采样: 重采样 时,只需要考虑包含 的CPT(即 的CPT以及其子女的CPT中涉及 的部分)