一、时序推理与马尔可夫模型

1.1 时序推理的需求

很多现实场景需要对观测序列进行推理,例如:
  • 语音识别
  • 机器人定位
  • 医疗监控
这要求模型能够处理**时间(或空间)**维度。
🌻
特别注意“序列”的概念

1.2 马尔可夫模型 (Markov Models / Markov Chains)

1.2.1 定义与核心概念

  • 状态 (State):
    • 变量 在特定时间 的取值,记为
      note that:
      ,或者其具体的取值,是一个包括了所有变量的取值的列向量
  • 状态值:从状态s开始,未来能够获得的期望累积折扣奖励。它衡量了一个状态的好坏程度
  • 马尔可夫性 (Markov Property):
    • 给定当前状态,未来状态的概率分布仅依赖于当前状态,而与过去的状态无关。即“未来与过去在给定现在的情况下条件独立”。当前状态捕获了历史中的所有相关信息。
      🌻
      也叫做无记忆性
  • 转移概率 (Transition Probabilities / Dynamics) :
    • 模型从一个状态转移到另一个状态的概率,描述了状态随时间的演变。
      具体来说,两种可能状态的情况下,状态分布的演化可以写成:
  • 平稳性假设 (Stationarity Assumption): 转移概率 在所有时间点 都相同
    • 也就是说,上述紫色的状态矩阵在马尔可夫假设下是稳定不变的

1.2.2 联合分布

基于马尔可夫性,一个状态序列的联合分布可以简化表示:
  • 根据链式法则:
    • 利用马尔可夫假设 (),简化为:

      1.2.3 隐含的条件独立性

      马尔可夫模型不仅有明确的相邻状态间的依赖关系,还隐含了更广泛的条件独立性:给定当前状态,过去任意状态与未来任意状态是独立的。如果 ,则

      1.2.4 示例:天气模型

      • 状态:
      • CPT(联合概率分布律)表示:
      sun
      sun
      0.9
      sun
      rain
      0.1
      rain
      sun
      0.3
      rain
      rain
      0.7
      • 马尔科夫链的两种等价表示:
      notion image
      • 尝试往前推演?👉套用上面的矩阵!
      notion image

      1.2.5 Mini-Forward 算法

      用于计算在任意时间点 的状态概率分布
      notion image
      • 递推公式:
      其中 是已知的初始分布。
      被称为Forward-Simulation
      事实上,前面的矩阵方程的每一行就是这里的递推公式

      1.2.6 平稳分布 (Stationary Distributions)

      • 对于许多马尔可夫链,当时间步数足够多时,初始状态分布的影响会逐渐消失
      • 系统最终会达到一个平稳分布 ,该分布不随时间改变,且与初始分布无关
      • 平稳分布的性质:

      二、隐马尔可夫模型 (HMMs)

      当系统的真实状态不能被直接观测,但可以通过与状态相关的观测来进行推断时,使用隐马尔可夫模型。
      X不可被观测,我们只能观测E
      X不可被观测,我们只能观测E

      2.1 HMM 的核心思想

      • 存在一个底层的、不可观测的马尔可夫状态
      • 在每个时间步,系统根据当前真实状态 产生一个可观测的输出(证据或发射)

      2.2 HMM 的定义

      一个HMM由以下参数定义:
      • 初始状态分布 : 第一个时刻处于各个隐藏状态的概率。
      • 状态转移概率 : 隐藏状态之间转移的概率。
      • 发射概率 (Emission Probabilities) : 在某个隐藏状态 下,观测到某个证据 的概率。
      NOTE THAT:
      给定,那么和其它所有变量条件独立

      2.4 HMM 的联合分布

      根据链式法则,HMM中变量的联合分布可以表示为:
      给出以下条件独立性假设:
      1. 当前状态 仅依赖于前一状态
        1. 当前观测 仅依赖于当前状态
          得到HMM中所有状态和观测序列的联合分布为:

          2.5 HMM 中的推理任务

          2.5.1 滤波 (Filtering / Monitoring)

          对隐藏状态的分析取决于对发射量的观测。但是观测可能是有误差的
          因此引入信念的概念,通过反复观测(每次观测都比较准但是不完全准)来更新对观测结果的信念
          • 任务: 追踪当前时刻 的隐藏状态的概率分布,即信念状态 (Belief State)
          • 过程: 从初始信念 开始,随着时间的推移和新观测的获得,不断更新信念状态。卡尔曼滤波器 (Kalman Filter) 是一个著名的滤波算法实例。

          2.5.2 示例:机器人定位

          • 隐藏状态: 机器人在地图中的真实位置。
          • 观测: 机器人传感器读到的墙壁信息。
          • 模型:
            • 运动模型: 描述机器人执行动作后可能到达的位置(有噪声)。
            • 传感器模型: 描述在特定位置传感器给出特定读数的概率(有噪声)。
          • 通过结合运动模型(时间推移)和传感器模型(观测更新)来估计机器人的位置分布。
          notion image
          notion image
          notion image
          notion image

          2.5.3 推理步骤:在线信念更新

          信念更新通常包含两个步骤:
          1. 时间推移 (Passage of Time / Prediction):
            1. 根据前一时刻的信念状态转移模型预测当前时刻的信念
              notion image
              • 记为
          1. 观测更新 (Observation Update / Measurement Update):
            1. 结合当前时刻的观测和发射模型,修正预测的信念
              notion image
              • 记为
              • 这一步后需要归一化以确保概率和为1。

          三、马尔可夫决策过程 (MDPs)

          MDPs 为在不确定性环境中进行顺序决策提供了一个数学框架。智能体的目标是学习一个策略,以最大化其长期累积奖励。
          notion image

          3.1 MDP 的定义

          一个 MDP 由以下五个要素定义:
          • 状态集状态集合 : 环境可能处于的所有状态。
          • 动作集合 : 智能体在每个状态下可以执行的所有动作。
          • 转移函数 : 在状态 执行动作 后,转移到状态 的概率。这描述了环境的动态 (dynamics)
          • 奖励函数 : 在状态 执行动作 并转移到状态 后,智能体获得的即时奖励
            • 有时也简化为 (离开状态 的奖励) 或 (进入状态 的奖励)。
          • 折扣因子 : 用于衡量未来奖励相对于当前奖励的重要性。
          可能还包括一个起始状态 和一个或多个终止状态

          3.2 MDP 的马尔可夫性

          与马尔可夫链类似,MDP 中的状态转移也具有马尔可夫性:下一个状态 的概率分布仅依赖于当前状态 和当前采取的动作 ,而与之前的状态和动作历史无关。

          3.3 策略 (Policies)

          • 策略 :
            • 一个从状态到动作的映射 (),规定了智能体在每个状态 下应该采取的动作
          • 最优策略 :
            • 能够使得智能体从任何状态开始,期望的长期累积(折扣)奖励最大化的策略。
          notion image

          3.4 回报与折扣

          回报 (Return):

          从某个时间步开始,未来所有奖励的总和
          智能体的目标是最大化期望回报

          Stationary Preference

          马尔可夫决策过程的一个重要假设,亦即智能体对于奖励序列的偏好不随时间而改变。
          在Stationary Preference的假设下,主要有两种定义效用/汇报的方式:
          notion image
          如果采用Additive Utility,并且游戏时间无限长的话,会面临无限效用的问题,使得智能体决策困难。
          notion image

          折扣 (Discounting):

          notion image
          • 引入折扣因子 是因为:
              1. 未来的奖励通常不如即时奖励有价值。
              1. 有助于算法在无限期界问题中收敛。
              1. 在数学上避免无限的累积奖励。
          • 从当前视角来看,一个奖励序列 的折扣效用为:
            notion image
            • 如果奖励有上限 ,则
            • 这样的话,久远未来的奖励几乎可以忽略不计,解决了无限效用的问题

            3.5 最优量与贝尔曼方程

            3.5.1 最优状态值函数

            • : 从状态 开始,并始终遵循最优策略 行动,所能获得的期望累积折扣奖励。
            • 一个理想的假设的函数

            3.5.2 最优动作值函数 (Q值函数)

            • : 在状态 采取动作 (a不一定是最优策略),然后在此后的所有步骤中都遵循最优策略 行动,所能获得的期望累积折扣奖励。
            中间的Q是发生动作a后的过渡状态
            中间的Q是发生动作a后的过渡状态

            3.5.3 贝尔曼最优方程 (Bellman Optimality Equations)

            这些方程是 MDP 理论的核心,描述了最优值函数之间的递归关系:
            1. (状态 的最优值等于在该状态下采取能产生最大Q值的动作所对应的Q值)
              1. 也就是保证了动作a也是最优决策
            1. (在状态 采取动作 的Q值等于所有可能的下一状态 的(即时奖励 + 折扣后的下一状态最优值)的期望)
              1. 其中是状态转移函数,等价于 ,它给出了在状态 s 执行动作 a 后,系统转移到状态 s′ 的概率
            将两者结合,可得 的贝尔曼最优方程:
            这些方程为求解 MDP 提供了基础。

            四、求解 MDPs (当模型已知时)

            接下来,介绍有限决策时间的假定,以及基于该假定的两种已知模型的求解方法。

            4.0 pre:Time-Limited Values

            给定一个MDP,定义为从状态s出发,在仅剩k步决策时间的情况下所能获得的最大期望回报。
            notion image
            • 时,,因为没有剩余决策时间
            • 时,可以通过以下递归方式计算:
            这个公式体现了有限步数下的贝尔曼方程,表示当前决策需要考虑即时奖励和未来k-1步的最优决策值。
            这也和之前的discounting有关。遥远的未来的回报认为是零

            4.1 值迭代 (Value Iteration)

            值迭代示例

            notion image
            算例:
            for:
            so:
            类似的方法,我们可以一直迭代到通常而言,这些值最终会收敛,而我们选择的策略也会稳定下来。
            上述过程的问题是:
            1. 计算复杂,每轮迭代的复杂度是
            1. 收敛之前,我们的策略选择可能已经稳定(例如在,策略已经是最优策略),大量计算被浪费

            值迭代是一种通过迭代更新状态值函数 直至收敛到最优值函数 的算法。
            • 核心思想: 基于贝尔曼最优方程进行迭代更新。算法维护一个当前的值函数估计 ,表示从状态 开始、最多还能进行 步决策时的最优期望回报。
            • 初始化: 对所有状态 (如果游戏还剩0步,则期望回报为0)。
            • 迭代步骤: 对于每个 ,计算
            🌻
            开始,从下往上推
            • 收敛性: 或者在有限期界问题中, 会收敛到唯一的
            • 提取策略: 一旦 收敛,最优策略 可以通过一步前瞻来提取:

              4.2 策略迭代 (Policy Iteration)

              策略迭代通过交替进行策略评估策略改进两个步骤来找到最优策略。
              • 初始化: 从一个任意的初始策略 开始。
              • 迭代循环:
                  1. 策略评估 (Policy Evaluation):
                      • 目标: 计算当前策略 下(假定为fixed policy)的状态值函数
                      • 满足贝尔曼期望方程:
                        • 这可以迭代求解 直至收敛(类似值迭代,但动作是固定的):
                        或者,对于有限状态,这是一个线性方程组,可以直接求解
                        • 策略评估的迭代复杂度为
                    1. 策略改进 (Policy Improvement):
                        • 目标: 基于刚评估得到的 ,找到一个更好的策略
                        • 对每个状态 ,我们考察如果在这个状态下采取某个动作a,然后再遵循现有的策略,所能获得的回报。将能够把回报最大化的a作为新的策略
                          • 如果 对所有状态都成立(也就是能够把回报最大化的就是给定的策略),则算法收敛,当前策略即为最优策略 ,其对应的 即为 。否则,令 并返回步骤1。
                  • 收敛性: 策略迭代保证收敛到最优策略。通常比值迭代需要的迭代次数少,但每次迭代中的策略评估可能计算量较大。

                  4.3 值迭代 vs. 策略迭代

                  • 两者都是求解 MDP 的动态规划方法,最终都能找到最优值函数和最优策略。
                  • 值迭代每轮迭代都更新值函数,并隐式地更新策略(通过 操作)
                  • 策略迭代显式地维护一个策略,在策略评估阶段固定策略计算其值,然后在策略改进阶段显式更新策略。
                  • 在实践中,策略迭代有时收敛更快,特别是当策略空间较小时

                  五、强化学习 (Reinforced Learning)

                  当 MDP 的转移模型 和奖励模型 未知时,智能体必须通过与环境交互来学习最优策略。这就是强化学习的核心问题。

                  5.1 RL 与 MDP 的关系

                  notion image
                  • MDP 定义了 RL 问题的理论框架 (状态、动作、奖励、转移)。
                  • RL 提供了在未知或复杂 MDP 环境中,智能体如何通过经验学习来优化其行为(策略)的算法
                  • RL 的目标是找到一个策略 来最大化累积奖励

                  5.2 RL 的主要方法分类

                  • 基于模型的 RL (Model-Based RL):
                      1. 尝试从经验中学习环境的模型 (估计 )。
                      1. 使用学习到的模型进行规划 (例如,使用值迭代或策略迭代) 来找到策略,模仿模型已知时的做法
                  • 无模型的 RL (Model-Free RL):
                    • 不尝试学习环境的完整模型
                    • 直接从经验中学习值函数 (状态值或动作值) 或策略。
                  notion image

                  5.3 基于模型的学习 (Model-Based Learning)

                  • 基本思想:
                      1. 智能体与环境交互,收集样本
                      1. 利用这些样本估计转移概率 和奖励函数
                          • 用频率逼近概率:
                            • 可以是观测到的奖励的平均值。
                        1. 一旦有了近似模型 ,就可以将其视为一个已知的 MDP,并使用值迭代或策略迭代等方法求解。
                    • 优点: 可以更有效地利用数据。
                    • 缺点: 如果模型学习不准确,会导致次优策略;学习模型本身可能很复杂。

                    5.4 无模型学习 (Model-Free Learning)

                    当不构建环境模型时,智能体直接从与环境交互的经验中学习。

                    5.4.1 Q学习 (Q-Learning)

                    Q学习是一种非常流行的异策略 (off-policy) 时序差分 (Temporal Difference, TD) 控制算法。它直接学习最优动作值函数
                    • 核心思想: 使用贝尔曼最优方程 作为更新目标,但由于 未知,所以使用从环境中采样得到的单个转移 来估计这个期望。
                    • Q表(Q学习最关键的概念): 维护一个表格,存储每个状态-动作对 的Q值估计 。Q表形如:
                    更新规则: 当智能体在状态 执行动作 ,观测到奖励 和下一状态 后,Q值按以下方式更新:
                    或者采用一种意义更明确的等价写法
                    其中:
                    • TD目标 (TD target),是根据最新观测到的数据对 的一个估计。
                    • TD误差 (TD error)
                    • 学习率 (learning rate),控制新信息覆盖旧信息的程度。

                    Q学习特征:
                    • 异策略 (Off-policy): Q学习可以学习最优策略 ,即使它用来收集经验的策略(行为策略)不是最优的(例如,包含探索的策略)。
                    • 收敛性: 如果所有状态-动作对都被无限次访问,并且学习率 满足一定的条件(例如,随时间适当减小),学习会收敛到最优的 函数。
                    • 从Q值提取策略: 一旦 收敛或接近最优,最优策略可以通过在每个状态选择具有最大Q值的动作来获得:
                      • 也就是在这张表的每一行找最大值,选择对应的行动

                    5.4.2 探索 vs. 利用 (Exploration vs. Exploitation)

                    在强化学习中,智能体面临一个基本困境:
                    • 利用 (Exploitation): 根据当前已有的知识,选择当前看来最好的动作,以最大化即时或短期回报。
                    • 探索 (Exploration): 尝试新的、未知的或当前看来并非最优的动作,以期发现可能更好的状态或奖励路径,从而获得关于环境的更多信息,可能在长期获得更高的回报。
                    完全利用可能导致陷入次优解,因为它不会尝试那些最初看起来不好的动作,即使它们可能通向更好的长期结果。完全探索则可能导致行为随机,无法有效利用已知的好策略。
                    notion image
                    常用的探索策略:
                    1. -贪婪策略 (-greedy):
                        • 以概率 选择当前Q值最高的动作 (利用)。
                        • 以概率 从所有可能的动作中随机选择一个 (探索)。
                        • 通常是一个小的正数 (例如0.1)。为了保证最终收敛到最优策略, 可以随学习的进行而逐渐减小。
                        • 贪婪策略问题:
                          • 在学习完成之后,继续探索会浪费资源
                        • 解决方案:
                          • 随着时间的增加,减小;学习完成后减小/停止探索
                          • 探索函数👇
                    1. 探索函数 (Exploration Functions):
                        • 修改Q学习的更新规则或动作选择机制,为那些不常被访问或其价值不确定的状态-动作对赋予一个"探索奖励"或"乐观的初始值"。
                        • 例如,在选择动作时,不仅仅考虑 ,而是考虑一个函数 ,其中 被访问的次数。一个简单的探索函数是:
                          • 其中 值估计, 是访问次数, 是一个控制探索程度的常数。这会鼓励智能体尝试那些访问次数较少的动作

                    5.5 Q学习的局限性与深度强化学习

                    • 局限性:
                      • 需要维护一张Q表格,表格的大小为
                      • 表格表示的诅咒 (Curse of Dimensionality): 当状态空间或动作空间非常大(甚至是连续的)时,用表格来存储所有Q值变得不可行。
                    • 深度强化学习 (Deep Reinforcement Learning, DRL):
                      • 结合深度学习与强化学习。
                      • 使用深度神经网络 (Deep Neural Networks, DNNs) 作为函数逼近器来估计Q值函数 (例如,Deep Q-Networks, DQN) 或策略函数。
                      • 输入可以是高维原始数据 (如图像像素),网络输出Q值或动作概率。
                      • DRL 已经在许多复杂任务中取得了巨大成功,例如玩 Atari 游戏、围棋 (AlphaGo) 等。
                     
                    Loading...
                    Z_cosy
                    Z_cosy
                    浙江大学电气工程学院本科生
                    公告
                    🎉Welcome to Z-cosy🎉
                    -- 食用指南 ---
                    目前只有课程笔记以及电控学习笔记
                    陆续会整理更多内容!