Random Variable–随机变量
** 1** Random Variable:是一个未知的随机的变量,其值取决于一个随机事件的结果。如抛硬币的正反两面。
2随机事件一般用X表示,如抛硬币。0和1表示正反。
3 通常用小写字母表示对随机变量的观测值,观测值是一个数没有随机性。如抛4次硬币,得到4个观测值。
Probability Density Function–概率密度函数
1概率密度函数:随机变量在某个确定的取值点附近的可能性。如高斯分布(也称正态分布,是连续的)
随机变量x的取值可以是任意一个实数,μ是均值,σ是标准差。
横轴是X的取值,纵轴是概率密度。
离散的概率分布;
2 把随机变量的定义域记作为x ,如果P是个连续的概率分布,可以对p(x)做定积分。
期望
如果p是个离散的概率分布,随机变量在离散的集合x中取值,可以对p(x)做一个加和。
期望
Terminology –术语
1 state and action
state: 状态 action:智能体做的动作
可以认为这张图片就是当前的状态 agent做的动作就是action
2 policy
policy:策略及为Π函数 。根据观测到的状然后做出决策控制agent运动
(根据观测到的屏幕上的画面时该让agent做什么动作,往上或往左或往右)
在许应用学习中,最好policy具有随机性。
3 reward:奖励。 强化学习的目标就是获得的奖励总和尽量要高。
state transition 状态转移 可以确定也可随机 通常随机