Random Variable–随机变量

** 1** Random Variable:是一个未知的随机的变量,其值取决于一个随机事件的结果。如抛硬币的正反两面。

2随机事件一般用X表示,如抛硬币。0和1表示正反。

3 通常用小写字母表示对随机变量的观测值,观测值是一个数没有随机性。如抛4次硬币,得到4个观测值。

Probability Density Function–概率密度函数

1概率密度函数:随机变量在某个确定的取值点附近的可能性。如高斯分布(也称正态分布,是连续的)

随机变量x的取值可以是任意一个实数,μ是均值,σ是标准差。

横轴是X的取值,纵轴是概率密度。

离散的概率分布;

2 把随机变量的定义域记作为x ,如果P是个连续的概率分布,可以对p(x)做定积分。

期望

如果p是个离散的概率分布,随机变量在离散的集合x中取值,可以对p(x)做一个加和。

期望

Terminology –术语

1 state and action

state: 状态 action:智能体做的动作

可以认为这张图片就是当前的状态 agent做的动作就是action

2 policy

policy:策略及为Π函数 。根据观测到的状然后做出决策控制agent运动

(根据观测到的屏幕上的画面时该让agent做什么动作,往上或往左或往右)

在许应用学习中,最好policy具有随机性。

3 reward:奖励。 强化学习的目标就是获得的奖励总和尽量要高。

state transition 状态转移 可以确定也可随机 通常随机