石头:2229 - 371 x
Temani蒙* 1,Rekik阿里2,Gabsi穆尼尔3
|
通讯作者:Temani蒙,电子邮件:monc.tem@gmail.com |
相关文章Pubmed,谷歌学者 |
访问更多的相关文章全球研究计算机科学杂志》上
多智能体(SMA)是一个系统的复合系统设置代理,坐落在特定环境和特定交互关系。游戏是一种形式主义理论旨在研究代理知道这样的交互之间的交互可以扩展合作的冲突。游戏决策系统中多代理要求球员管理大量的单元放置在一个非常复杂的环境中,构成复杂的现实问题和人工智能技术的状态都是无效的。本文描述了游戏在多代理系统决策的问题。然后我们提出博弈模型。在那之后,我们提出游戏的规范化问题。最后,我们引用的方法解决游戏问题。
介绍 |
有效的决策问题是一个系统命令最使用的人工智能[1]。生产过程和决策制定根据目的决定的交互知识代理环境的问题[2],在离散系统理解的决定(包括)以替代行动代理人的选择基于控制适当的环境影响和代理的先验知识领域的问题。 |
在分布式系统中,决策的过程是游戏的代理[3]。它复杂的选择选项的组合是有效的解决方案,因为他们与代理的不断增加呈指数级增长。在这方面,模型的结构和方法基于人工智能理论的元素使空间的减少为科学问题找到有效的解决方案,真正的实际情况。 |
使用多代理系统提供了几个优势,包括以下几点: |
并行工作的速度操作系统允许分解全球性问题的子任务,这些子任务可以由个人代理。 |
·增加系统的稳定性在失败的情况下的个人代理通过更换其他代理。 |
·扩展系统通过引入新的代理,可能与新特性。 |
·最好的技术和经济性能与系统基于成熟的代理商相比,因为个人代理的成本通常是由于他们的特定功能。 |
代理决策的多智能主体系统是由个人和独立的当前反应可能意味着这是由许多代理人的集体行动决定。游戏的选择是由集体决定的笛卡儿积的代理商的个人行为。与代理环境的交互过程中可以转售他们自己的版本有许多决策。 |
在实践中,我们选择的选项在制造业的先天不确定环境的免费游戏行为的个人代理[4]。在这种情况下,系统多主体没有必要数据到计算和实现解决方案的最佳阶段。代理的连贯与环境的交互选择最后一个协议,这是基于概率决策机制。代理人的有效方法,决策前的不确定性是马尔可夫的规则中使用的治疗目前的信息(5、6)。在代理系统的马尔可夫,忽略了上下文,我们计算后的解决方案的基础数据在当前时刻意识到这样一个环境的影响,从而优化最终版的反应方式,最大化的平均回报我们将减少至少二次损失。 |
多智能体系统的全球目的可能是协调代理[7]。协调确定的过程,提供一个全球目标的多智能主体系统的功能目标,关注当地代理的优化。在多智能优化全球解决方案中,作为一般规则,是一种妥协在当地最好的解决方案。协调实施的扩展限制代理人的可能的行动。已知的方式来解决这样的问题的协调:沟通、集体使用通信协议和代理培训每一个代理可以通知其他代理可能的行动,所以限制他们的选择。集体协议确定代理的共同行为的规则。如果代理商透露他们的意图为新行动,在任何情况下,规则(统治者)优先选择了其他的一些行为。 |
协调的问题加剧了指数空间的扩张相结合多智能体系统和集体决策的选择条件下的参数或结构和功能的不确定性。在实践中,作为一个规则,代理人具有局部定义的连接,因此不需要对所有空间优化目标函数的解决方案。不确定性决策系统中使用自适应补偿selflearning方法。 |
在效率和耗时的决策推理的不确定性在很大程度上依赖于代理的学习和适应能力的不确定性决策(8 - 10)。教育代理建立限制无效的操作可以执行计算的动态权重(优先级)选项。反应介质对完成动作,获得的新的权重的代理执行递归计算离散选项,考虑到的当前值奖励。在这个时间点上,选择是实现最大重量。实现的选项可能会由机会,基于概率的选择,它可以计算估值的权重可能的代理行为。教育代理是基于模型、方法和算法、控制理论和人工智能,机器常数和变量结构[11],M-automata网络[12],模型的自适应随机搜索[13],[6]马尔可夫决策过程,各种变异的q学习[14],人工神经网络[15],选择性和遗传算法[16],贝叶斯网络[17],启发式[18],模型随机游戏(19、20),等等。 |
研究的协调代理在一个不确定的环境适合执行基于模型的随机游戏,也可以调查过程中的竞争与合作团队代理确定妥协的解决方案,分散的系统。目标是构建随机多智能体系统的决策模型,游戏开发的方法求解随机游戏,和确定条件收敛到平衡态的集体。 |
GAMEMODEL OFMULTI-AGENT系统 |
在解释代理的游戏玩家的特点是向量的纯和混合策略。元素的混合策略确定的概率选择适当的纯策略在离散时刻的时间。玩家选择纯策略,无论时间和彼此独立的按照概率机制,基于混合策略的基础。集体策略实施后的玩家获得一个随机的实现这个赢得与未知先验分布规律[21]。为每个球员赢得战略是由当地周边的子集的球员。在游戏中没有的信息交换的球员不通知对方意识到战略和获得的价值回报。与信息交换的游戏,每个玩家说球员们从当地的子集这场胜利的重要性。在游戏中,玩家通过当前故障有一定概率。因此,每个玩家将获得信息从许多球员,奖金,这取决于其策略。当前的卷积win-weighted积极的系数是一种评估策略选择的球员在当前时刻。 Sequences of selected variants estimated averaged over the prehistory of the functions of the average payoff of players. The aim of each player in the asymptotic time to maximize the average payoff function. Interchanges vector optimization problem looking at the set of Nash equilibrium points (for the game without the exchange of information) or Paretooptimality (for the game with the exchange of information) [22]. |
渐近的目标是通过学习形成向量马尔可夫递归方法的混合策略[23],可以通过随机的方法近似[24]基于确定性制定适当的矩阵博弈问题[22]。充分条件收敛方法的有关游戏是基于上界条件期望的误差对当前问题的解决方案的平均估计获得实现的事件和结果有关定理在递归数字不平等(21,25)。 |
游戏的规范化问题 |
假设没有空集的球员D假设没有空集的球员D,每个iID执行在离散时间的n = 1, 2,…独立的选择自己的纯策略之一 |
我们认为这样的模型:没有共享和信息交换的,没有失败,失败的球员。在游戏中没有的信息交换的球员不通知对方意识到战略和价值获得胜利我n x。 |
在游戏中玩家的特点是失败probabilityh我[0,1)。让我我{0,1}- i -玩家参与游戏的迹象。Ify i = 0,那么球员拒绝 |
METHODSOF解决游戏问题 |
渐近的目标(3)和(4)通过自学习递归方法形成向量的混合策略我n p,元素的条件概率的选择适当的纯策略, |
构建具有所需的属性的方法,这是由条件(3)和(4),被认为是渐近的矩阵公式适当coalition-free游戏问题的平均回报玩家的功能 |
渐近解耦矢量优化问题(2)必须寻求纳什均衡的点集,帕累托最优,等等。(21、22)。实现一个特定的解决方案是由类型的方法(5)和改变它的可调参数。基于语言游戏问题根据不确定性和确定性矩阵博弈问题,使用随机近似条件不赠送的刚度(5)构造这样的反复马尔可夫游戏方法: |
确定收敛的充分条件游戏实践(6)和(7)的渐近最优解在某些环境和媒体的一般形式标志。基于上面的条件数学期望的估计当前的错误 |
条件没有免费的刚性固定背景的事件和后果的定理反复数值不等式[21]和概率1收敛的条件。根据估计得到的平均实现二次事件获得收敛条件的媒介。估计的渐近收敛的顺序 |
一般形式的方法(6)最大化渐近收敛速度等于n - 1 / 3的顺序和实现= 2 / 3,b = 1 / 3。方法(7)的最大订单= n - 1 / 2,获得论坛= 2 / 2,b³1 / 2。 |
从这些结果,在任何特定的方法(7)提供了一个高阶收敛速度比方法的最优解集(6)的特定环境和环境的一般形式。根据其他研究的结果发现,球员们的失败导致e最优解决方案的问题游戏和缓慢的收敛速度。降低阈值游戏y收敛速度演奏技术正在增长。没有共享和信息交换方法有相同的渐近收敛速度的顺序问affine-equivalent环境。玩家之间的信息交换导致收敛速度的增加(减少valueJ)。这些方法提供了稳定的混合策略的游戏问题的解决方案。 |
结论 |
开发的游戏模型能够协调集体互动的调查过程的多重代理系统决策。在游戏中制定协调的过程协调代理的行为达到妥协集体决策。协调是通过实施限制的行为理性的代理人为了实现有效的解决方案。妥协的解决方案的建设协调代理的行为进行学习的方法和适应决策的不确定性。游戏问题的模型的自适应选择的选项在先天的不确定性信息的交换和否认允许玩家扩展应用随机理论的游戏类分布式控制问题的随机过程与本地交互。模型建立的基础上补充条件不均衡策略的刚性和属性使用随机近似合成一个新类复发的方法,这有助于与统一的系统位置检查他们的残疾状况。建立之间的信息交换球员增加游戏实践的收敛速度和这是一个先决条件寻找游戏的帕累托最优解决方案,没有先天的确定性的收益函数。充分条件收敛的结构是由这个交换,反复实践和限制他们的类型参数。 |
发现恢复失败的球员导致收敛速度较慢,游戏的实践和游戏的渐近解拒绝从获得的最佳值没有失败的球员。游戏的整体分析选择选择在确定性条件表明,进一步的理论和实证研究在这一领域应重点关注建设和环境效率方面与教育游戏技术元素的认知加工。 |
承认 |
作者欣然承认这项研究在突尼斯是在进行科学研究小组丝之间的协议(ISG突尼斯)。我们感谢我们的同事Khaled Ghedira Dmytro Peleshko输入。在数不清的第一页的脚注。 |
引用 |
|