一、概率模型 (Probabilistic Models)

1.1 模型概述

  • 作用: 描述世界(或其一部分)如何运作。
  • 特性:
    • 总是简化的:可能未考虑所有变量或变量间的所有交互。
    • “所有模型都是错误的;但有些是有用的。” – George E. P. Box
  • 用途:
    • 进行未知变量的推理(给定证据)。
    • 示例: 解释(诊断性推理)、预测(因果性推理)。
    • notion image

1.2 条件独立性与链式法则 (Conditional Independence and the Chain Rule)

链式法则:

进一步地,拓展到n项:
  • 平凡分解: 与链式法则相同。
  • 基于条件独立性假设的分解简化:
    • 上式想表达:条件中一些无关的相可以删去
    • 贝叶斯网络/图模型/信念网络帮助我们表达条件独立性假设。

二、贝叶斯网络:概述

  • 定义: 一种数据结构,能够表示变量间的依赖关系和完整的联合概率分布
    • 不一定是因果关系
    • 有向无环图
  • 问题:
    • 完整联合分布表: 变量多时,表过大,难以明确表示和学习。
  • 贝叶斯网络:
    • 使用简单的局部部分(条件概率),通常可以的成对分析,来描述复杂的联合分布(模型)。
    • 描述变量如何局部交互,局部交互链接起来形成全局的、间接的交互。
  • 示例: 汽车贝叶斯网络 (Car Bayesian Net) - 图示说明了如电池、油量、启动等变量间的依赖关系。
notion image

三、贝叶斯网络核心内容

3.1 表示 (Representation)

3.1.1 图模型表示法 (Graphical Model Notation)

  • 节点 (Nodes): 变量(有其域),可以是已赋值(观测到)或未赋值(未观测到)。
  • 弧 (Arcs): 交互,指示变量间的“直接影响”。
    • 形式上:编码条件独立性。
    • 不需要满足因果关系。实际上只是概率传播的通路,因果写反了同样可以计算出同样的结果

3.1.2 示例 (Examples)

  • 硬币投掷 (Coin Flips): N次独立投掷,变量间无交互(绝对独立),图中无弧。
    • 交通 (Traffic):
      • 变量: R (下雨), T (交通堵塞)
      • 模型1: 独立 (R, T 分别为节点,无连接)
      • 模型2: 下雨导致交通堵塞 (R → T) - 使用模型2的智能体更好。
      • notion image

    3.1.3 贝叶斯网络语义 (Bayesian Net Semantics)

    • 组成:
        1. 一组节点,每个变量一个。
        1. 一个有向无环图 (DAG)
        1. 每个节点的条件分布 (CPT - 条件概率表):
          1. 描述了给定其父节点各种取值组合时,该节点取值的概率
            在给定了父节点之后,其它节点的取值与子节点无关;内含条件无关性
            notion image
    🌻
    贝叶斯网络 = 拓扑结构 (图) + 局部条件概率 (表)

    3.1.4 贝叶斯网络中的概率 (Probabilities in Bayesian Nets)

    • 编码联合分布: 隐式地将联合分布表示为局部条件分布的乘积

      Example:Alarm Network

      notion image
      notion image
      每个节点都有一张概率分布表;根据这些表和节点的关联关系即可写出任何一个联合概率分布👆

      3.1.5 贝叶斯网络的规模 (Size of a Bayesian Net)

      • N个布尔变量的联合分布大小:
      • N个节点(每个节点最多k个父节点)的网络大小:
      • 优点: 巨大的空间节省,更容易获取局部CPT,更快地回答查询。
      • 注意: 只有变量完全独立的分布才能用无弧的贝叶斯网络表示。
      notion image

      3.1.6 因果关系 (Causality?→Not Necessarily!)

      • 当BN反映真实因果模式时:
        • 通常更简单(节点父节点更少)。
        • 更容易思考和从专家处获取。
      • BN不必是因果的:
        • 有时在领域内不存在因果网络(尤其当变量缺失时)。
        • 例如:考虑变量“交通”和“屋顶滴水”。
        • 最终的弧可能反映相关性,而非因果性。
      🌻
      • 弧的真正含义: 拓扑结构编码了一系列条件独立性陈述

      3.2 条件独立性 (Conditional Independences)

      定义

      • X和Y独立:
      • X和Y在给定Z时条件独立:
      • 贝叶斯网络中的假设:
        • 除了链式法则简化带来的条件独立性假设外,通常还有额外的、可从图中读出的隐含条件独立性

      D分离 (D-separation):

      • 一种用于判断在给定证据变量的情况下,两个节点X和Y是否条件独立的算法。
      • 三种基本结构:
          1. 因果链 (Causal Chains):
              • X和Z不独立。
              • 给定Y时,X和Z条件独立 (Y阻断了路径)。
          notion image
          1. 共同原因 (Common Cause):
              • X和Z不独立。
              • 给定Y时,X和Z条件独立 (Y阻断了路径)。
              notion image
          1. 共同效应 (Common Effect / V-结构):
              • X和Y独立。
              • 给定Z,X、Y不独立
              notion image

      活跃/非活跃路径 (Active / Inactive Paths)

      路径:把贝叶斯网络的连边看成一条条传递概率的路径,如果相互独立则认为路径被阻断,概率不能通过路径传播
      要判断X和Y在给定证据集合时是否条件独立,需要检查X到Y之间的所有无向路径
      • 路径活跃 (Active Path)→不独立
        • 路径活跃的条件是:路径上的每个三元组都处于活跃状态(不条件独立,概率在路径中传播)。
          因果链 (或反向):当B未被观测时活跃
          共同原因 :当B未被观测时活跃
          共同效应 :当B或其任一后代被观测时活跃
      notion image
      • 路径非活跃/阻塞 (Inactive/Blocked Path)→独立
        • 只要路径中有一个片段处于非活跃状态,整条路径就是非活跃的。
      • D分离
        • 如果X和Y之间的所有路径都被阻塞,那么X和Y在给定时条件独立。
      • 结构含义 (Structure Implications)
        • 给定贝叶斯网络结构,D分离算法可以构建所有形式为的必然条件独立性列表
          notion image

      判断条件独立性的例子

      Homework 2 T1(Key=D)
      Homework 2 T1(Key=D)
      notion image

      3.3 概率推断 (Probabilistic Inference)

      3.3.1枚举推断(Inference by Enumeration)

      notion image
      🌻
      问题:为什么枚举法非常慢?
      因为你需要写出完整的联合分布,然后才能求和消去无关变量
      notion image

      3.3.2 变量消除 (Variable Elimination)

      思想: 交替进行连接 (joining) 和边缘化 (marginalizing)。
      仍然是NP难问题,但通常比枚举推断快得多。
      本质上只是改变了求和符号的位置
      notion image

      通用变量消除算法:
      1. 初始化: 因子列表包含所有CPT(证据已实例化)。
      1. 循环: 当仍有隐藏变量H(非查询变量Q或证据变量E)时: a. 选择一个隐藏变量H。 b. 连接 (Join) 所有提及H的因子,得到新因子 。 c. 消除 (Sum out) H 从 中,得到新因子 ,并用 替换原来的那些因子。
      1. 结束: 所有隐藏变量消除后,连接剩余所有因子(此时只包含查询变量和证据变量)。
      1. 归一化: 得到
      notion image
      来看一个和枚举法中同样的例子,采用数学的方法分析:
      notion image
      notion image
      变量消除顺序 (Variable Elimination Ordering):
      • 顺序对效率至关重要,影响过程中产生的最大因子的规模
      • 一个坏的顺序可能导致指数级复杂度的因子,而好的顺序可能使计算可行。
      再来看一个例子:
      notion image
      notion image
      notion image
      • 理解因子(表格)的概念
      这个表达式是指消去之后,表达式只和有关。这个中间因子包含两个变量。在计算机计算中,这个数学表达式是以表格的形式存储的
      但是,如果首先对进行归一化,就会含有六个因子,计算复杂度大大增加
      💡
      计算复杂度由产生的最大因子决定;因子的大小等于其中包含的未被赋值的变量的数目
      • 计算与空间复杂度:
        • 由过程中产生的最大因子决定。找到最优消除顺序是NP难的。

      例题

      notion image
      notion image
      notion image

      3.4 近似推断:采样 (Approximate Inference: Sampling)

      notion image
      🌻
      通过频率逼近概率
      • 为何采样?
        • 学习:从未知分布中获取样本。
        • 推断:获取样本比精确计算(如变量消除)更快,尤其对于复杂网络。
      • 基本思想:
          1. 从采样分布S中抽取N个样本。
          1. 计算近似的后验概率
          1. 根据大数定理,该方法会收敛到真实概率P
      • 采样的过程:
        • 顺着贝叶斯网络的图模型,从上游节点向下游节点采样

      从给定分布采样:

      1. 上的均匀分布获取样本u。
      1. 将u转换为给定分布的一个结果(每个结果关联的一个子区间,区间大小等于其概率)。
      • 优点:
        • 生成样本时考虑了证据。
        • 更多样本会反映证据所暗示的世界状态。
      • 缺点:
        • 证据只影响下游变量的选择,不影响上游变量。
        • 如果上游变量的CPT(Conditional Probability Table)导致证据的概率很低,权重仍然可能非常小。

      3.4.1 先验采样 (Prior Sampling)

      • 过程:
          1. 按照拓扑顺序遍历所有变量
          1. 中采样
          1. 返回样本
        • 特性:
          • 生成的样本 的概率等于
            • 即BN的联合概率。
          • 采样过程是一致的 (consistent),即样本频率会收敛到真实概率。
        • 应用:
          • 估计 : 统计 的样本数,然后归一化。
          • 估计条件概率 : 在满足 的样本中统计 的分布。

      3.4.2 拒绝采样 (Rejection Sampling)

      • 目标: 计算 只关心我们想要的,不遍历全体
      • 过程:
          1. 使用先验采样生成样本
          1. 如果样本与证据 不一致,则拒绝该样本
          1. 否则,保留该样本。
      • 特性: 对于条件概率也是一致的。
      • 缺点: 如果证据 非常罕见,会拒绝大量样本,效率低下。

      3.4.3 似然加权 (Likelihood Weighting)

      不拒绝任何样本
      • 解决拒绝采样问题: 证据不太可能时,避免拒绝大量样本。
      • 过程 (计 的样本):
      • 关键:每个样本赋予一个权重
      1. 初始化权重
      1. 用该变量在其父节点组合下取值为观测值的概率来更新权重
      1. 返回带权重的样本
      • 估计: 通过对所有样本的权重求和来估计(分子是满足的样本权重和分母是所有样本权重和)。
        • 优点:
          • notion image
        • 缺点:
          • 证据信息只能通过权重向上游传播,而不能影响下游的采样过程
          • 如果上游变量的CPT导致证据的概率很低,权重仍然可能非常小。
        例题
        notion image
        notion image
        notion image

        3.4.4 吉布斯采样 (Gibbs Sampling)

        • MCMC (马尔可夫链蒙特卡洛) 方法
        • 过程:
            1. 初始化: 固定证据变量 。随机初始化所有非证据变量 。得到一个完整状态。
            1. 迭代: 重复进行 T 次(T 很大): a. 选择一个非证据变量 。 b. 基于所有其他变量的当前值(包括证据变量和其他非证据变量),从条件分布 中重新采样 的值。 c. 每次迭代后,得到一个样本(即当前所有变量的赋值)。
        • 特性:
          • 经过足够多的迭代("burn-in"期后),生成的样本近似来自正确的后验分布
          • 上游和下游变量都以证据为条件。因为迭代的时候从条件分布中重新采样,考虑了证据的影响
        • 优点:
          • 相比似然加权,可以避免权重过小的问题,因为所有变量的采样都考虑了证据。
        • 高效重采样: 重采样 时,只需要考虑包含 的CPT(即 的CPT以及其子女的CPT中涉及 的部分)
        Loading...