决策选择
决策选择是一个动态过程,是个体运用感知觉、记忆、思维等认知能力,对情境做出选择,确定策略的过程。广义的决策则包含判断与决策两个部分。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间 MDP 的多阶段打击目标选择模型。基于贝叶斯决策的多 QoS 目标的 Web 服务选择策略是在已有的具有相同功能的服务集的基础上,选择最可能让自己满意的一个 Web 服务来执行。
基本信息
- 中文名
决策选择
- 外文名
Decision choice
- 拼音
jué cèxuǎn zé
- 所属类别
科学方法
- 用途
选择合适的决策
- 涉及领域
各行各业
机器人比赛中决策选择
概述
多智能体系统(Multi-Agent Systems, MAS)的研究是当前人工智能领域的一个热点问题和重要的发展方向。足球机器人比赛已经成了MAS 研究的一个标准平台。机器人足球发展的宏伟目标就是要实现自学习、自适应以及具有很强鲁棒性的实时多智能机器人系统, 力争经过大约50年左右的发展,使机器人足球队能够打败当时人类的世界冠军足球队。以Mirosot 系列机器人系统为例,给出了一种分层递阶控制设计, 并针对在视觉子系统不采集对方球员信息的情况下, 提出了实力对比函数的概念, 通过这个函数实时的根据场上的情况判断双方球队的形式变化情况, 以提高决策子系统的智能性。
1决策系统的设计
1.1决策系统的分析
足球机器人的决策子系统扮演着教练员和运动员的职责。在真实的绿茵场上, 作为教练员要根据球场上的实际情况来部署球员, 同时也根据不同的对手, 选择不同的队形。足球机器人赛场上,决策者也应该根据不同的球队采取不同的策略,对于错综复杂的球场形势, 运用灵活的策略。一个好的决策系统不可能一劳永逸地一次性开发完成,是一个不断完善的过程,因此,构建一个可持续开发、合理的决策框架就显得尤为重要。分层递进控制方式对决策思路进行逻辑上的分层。一般来说,决策思路是先确定机器人之间的协作关系,然后根据配合的要求确定每个机器人的运动方式。分层的具体方式可以有一定的不同。
比赛时,视觉子系统每 40ms 左右将球场上各机器人的位姿和球的信息传入计算机 ,决策子系统根据传入的视觉信息分析球场上的情况 , 做出相应的决策,转化为每个机器人的左右轮速, 通过通信子系统发送给每个机器人。当决策子系统收到视觉输入信息后, 对其进行预处理, 根据球和本方机器人的位置对场上攻防形势进行分析, 并将所作的决策分解为各个任务———这是决策的第一层 。根据分解完的任务从队形库中为本方机器人确定一个队形———这是决策的第二层。根据队形所需的角色以及我方机器人的位置 , 将每个角色分配给具体的机器人———这是决策的第三层。之后将左右轮速发送给对应的每个机器人。
1 .2 决策系统的设计
决策系统的设计过程是一个由基层到高层逐步构造的过程, 就是如何来实现决策系统分析结果。基于上述足球机器人决策分析过程, 采用如下的足球机器人决策系统设计。
在比赛过程中 , 我们所要求小车的基本运动就是跑位 、转向, 继而在此基础上, 让小车按照决策者的意图来完成一些复杂动作, 最后实现决策者的整个策略思想。本设计采用面向对象的程序设计把整个决策系统划分 3 个类, 他们由基层到高层(即由顶到底)分别为:基本动作类、技术动作类、决策类, 他们是从顶到底依次继承, 高层可以继承基层, 但基层不能继承高层, 高层类中方法的实现需要基层类中方法的支持, 基本动作函数类的方法完成如原地转动、转到定角、转到定点、到定点、到达定点有一定的速度函数等等, 其属性是可调参数的结构体 ;技术动作函数类中封装一些比较高级的动作, 如完成射门 、防守、边界处理等功能;组合动作函数类是更高层次的类, 其方法用来完成多车协作动作, 如点球大战 、争球等动作 ; 决策类是整个决策系统的最高层, 是整个决策的核心部分 ,就是用这些底层类来实现决策者的意图,如信息预处理、态势分析、角色分配、动作实现等。由上设计实现过程,可以看出,我们可以根据决策者不同的需求,逐步完善这些底层函数类,各个函数类的补充只是改动本身,并不影响其他类,从而提高了整个决策系统的可维护性和可扩充性,为决策者提供了一个施展各种策略思想的平台。
2决策策略的动态选择算法
实力对比函数的提出
由于决策系统所能得到的信息仅是由视觉系统传递来的球的位置以及本方球员的位置和方向信息,因此如何判断对方球队的情况则变成了是一个不容易解决的问题。如果不对对方球队情况进行判断, 无论场上形式如何变化我方总是采用一成不变的策略则会降低整个球队的智能性, 本系统通过实力对比函数来判断场上情况的变化 , 并根据不同的情况做出不同的策略选择, 从而提高了系统的智能性。
3实验结果
在MiroSot 足球机器人系统中对本文提出的决策策略动态选择算法进行了验证, 其中 Team1 在进行决策策略选择的时候采用传统的决策策略选择方法。Team2 ,Team3 ,Team4 也采用传统的决策策略选择方法, 并且 3 支球队的实力一个比一个强(通过实验得出球队的强弱)。比赛结果如下表1 所示:
表1 比赛结果(选用本文算法之前)
球队 | 比赛结果 | ||
比分 | 控球时间之比 | 球在对方半场时间之比 | |
Team1 vs Team2 | 3 :0 | 3:1 | 3:1 |
Team1 vs Team3 | 2 :1 | 3:1 | 2:1 |
在选用的决策策略动态选择算法之后 ,Team1 分别对 Team2 ,Team3 ,Team4 的比赛结果如表 2 所示:
表2 | 比赛结果(选用本文算法之后) | ||
球队 | 比赛结果 | ||
比分 | 控球时间之比 | 球在对方半场时间之比 | |
Team1 vs Team2 | 6 :0 | 4:1 | 4:1 |
Team1 vs Team3 | 4 :1 | 4:1 | 2:1 |