所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

有效的探索基于强化学习的分布式认知无线电频谱共享系统

美国Kiran1,Praveen库马尔1,k Rajesh Reddy2,m . Ranjith1
  1. ECE系助理教授,要Padmavathi工程学院,印度瓦朗加尔
  2. 助理教授、ECE系K.U. Engg学院。瓦朗加尔、印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际先进研究期刊》的研究在电子、电子、仪表工程

文摘

在本文中,我们研究如何基于分布式强化学习资源分配算法可以用来提高认知无线电系统的性能。今天的大多数无线系统的决策包括认知无线电系统发展,完全取决于瞬时测量。两个系统的架构进行了调查。点对点架构是检查第一次在一个开放的频谱的场景。然后,基于分布式强化学习算法是通过修改传统的强化学习模型开发的以适用于一个完全分布式认知无线电系统。

关键字

认知无线电资源分配、光谱传感、点对点架构、分布式强化学习

介绍

频谱的分配传输和用户是无线通信的一个基本问题。大量的信道分配方法提出了共享有限的物理资源。传统的授权频谱分配策略采用广播监管机构非常严格,非常呆板,导致高度充分利用频谱使用。一个完整的动态频谱接入技术认知无线电中首次引入[1、2],已被视为一个潜在的方法来提高频谱利用率。低效的使用可改善现有的频谱机会访问许可乐队而不干扰现有用户。认知无线电的定义提出了ITU-R[3]是:“一个无线电系统使用技术,这使得它可以获取知识的操作环境,政策和内部状态,动态调整其参数和协议根据获得的知识和学习的结果。认知无线电的基本目标是使一个有效的利用无线频谱通过一个高度可靠的方法。虽然认知无线电可以分析物理环境之前,设置一个通信链接,最好的系统性能是不可能通过一个随机的频谱感知策略或一个固定的频谱感知策略。
强化学习(RL),机器学习的子领域,使用数学方法来评估行动的成功水平(4、5)。强调个人学习的直接与环境的相互作用使得它非常适合分布式认知无线电场景。主要有两个原因考虑强化学习是最适合认知无线电系统的学习方法。第一个原因:强化学习是一种个人学习方法,学习只在当地代理学习观察和第二个问题是:强化学习在反复试验的基础上,没有学习环境模型是必需的。这也是非常适合认知无线电系统不断与“未知”的无线电环境在反复试验的基础上。
本文介绍了基于强化学习的分布式频谱共享(RL-DSS)计划可以有效地使用频谱利用用户过去的经验。在提出的频谱共享方案,奖励值分配给一个奖励资源基于使用功能。认知无线电用户选择频谱资源使用基于权重值分配权重较高的频谱资源,资源被认为是更高的优先级。此外我们调查和比较不同的奖励值的系统性能,有效地奖励函数的加权因子。事实上,我们将展示不同的权重因子值对系统性能产生巨大的影响,而不恰当的权重因子设置可能会导致一些具体问题。
提醒本文组织如下。基于认知无线电的强化学习模型将在第二部分。基于强化学习的分布式频谱共享算法在第三节描述。第四部分介绍了评估的关键测量系统,第五部分介绍了仿真结果验证分析,和第六节总结了纸。

系统模型

认知无线电的强化学习模型场景如图1所示。无线频谱是有效的环境认知无线电(CR)是学习代理。我们在CR场景实现强化学习的方式从最初的强化学习模型略有不同。这是由于几个认知无线电的内置功能。在最初的强化学习系统中,当前状态下政策的价值π是用Vπ(s)是选择行动的基础(s)。最优政策应该最大化Vπ(s)在每一个试验。Vπ(s)正式定义为[4]:
图像(1)
图像
图像
图像
图像(2)
图像
图像(3)
有效累积奖励的年代。另一部分方程是预期的反馈的继任者州年代”。它可以清楚地看到从方程(1)方程(3),以获得最优政策π*,年代的信息是至关重要的。信息,比如潜在继任者的州的数量和每个国家的估计价值的年代是至关重要的。
我们的策略是发展政策ππ映射内存(重量值)行动:W→代替原始的方法映射的环境行动π:S→[12]。一方面,代理商完全分布在我们的战略,以便决定只根据当地测量。不太可能为一个CR获得在网络层的信息。认知无线电能够激活前的目标谱和它不能传输数据到空闲的频谱被发现。选择最成功的光谱通过强化学习结合光谱传感是建议的方法。几个修正案已经学习模型。我们使用的强化学习模型,包括[4]:一组记忆,W W是一组权重的执行操作存储在知识库;一组动作,;一组数值奖励R。
CR将访问的通信资源根据强化学习的记忆。成功的一个特定的行动,目标谱是否适合考虑通信请求,由学习评估引擎。基于评估、奖励分配为了加强执行行动的重量知识库。自行动都是强连通到目标资源,重量几乎是使用附加到一个数量的资源,这个数字反映了资源的成功水平。我们的目标是开发一个最优策略映射体重行动π:W→可以最大化价值的当前内存Vπ* (W)。给定一组可用的资源和使用政策π的权重,选择一个特定的行动表示为=π(w)。然后最优值函数最优政策下π*可以被定义为:
图像(4)
w是资源使用的重量的一个代理在时间t, w '的期望值是代理需要一个动作后重量吗选择的概率是一个动作后采取的行动π*。最优策略可以指定为:
图像(5)
在每个通信请求代理选择资源可以最大化V * (w)根据当前的内存。根据结果,学习引擎更新知识库的奖励r。图1中的内循环在认知无线电将继续不断更新知识库;减少了通信系统的复杂性。
强化学习的一个关键元素是函数[8]的值。CR用户反馈的基础上更新其知识价值的功能。换句话说,CR用户调整操作显示功能。以下线性函数作为目标函数来更新频谱共享策略摘要[6、7]:
图像(6)
图像
图像

分布式强化学习——CR频谱共享方案

图像
图像
图像
图像
图像

绩效评估

在本文中,我们评估了系统的一些性能参数的能力。Signal-to-Interference-plus-Noise——比(SINR)是用来评估链接质量,即判断当前用户是否会失去目前的服务,或确定数据速率取决于自适应调制系统应用。阻塞概率和概率下降通常被用来评估基于连接的无线系统,例如speech-oriented无线服务。累积分布函数(CDF)用于处理初始数据和交付结果的统计行为。
1)Signal-to-Interference-plus-Noise-Ratio (SINR): Signal-to-Interference-and-Noise比(SINR)[9],也称为方面Interference-and-Noise比率(CINR)的一个基本参数测量无线通信的用户质量的链接。是定义的商接收信号的平均功率(或C)和平均收到同信道干扰功率(I) +噪声功率从其他来源(N),在点对点架构SINR已经导出:
图像(7)
p是n发射机的发射功率,g的无线连接通道的增益,噪声功率。回程假设和访问的频率间隔,以便回程网络和访问网络不相互干扰。然后回程网络,SINR以ABS n(信号从哈佛商学院m通道q和满足r)可以推导出:
图像
图像(8)
图像
在哪里图像是ABS之间的链接获得n和k女士。在分母上第一项是ABS的干扰从所有其他细胞,使用相同的频率。,第二个是干扰其他abs位于相同的单元中,而σ2噪声功率。
2)累积分布函数(CDF):正如我们之前提到的,为了获得统计准确的结果,我们需要应用蒙特卡罗模拟。然而,一个非常大量的未经处理的数据可以进行蒙特卡罗模拟。适当的数学分析在这种情况下需要显示结果的统计行为。累积分布函数的主要统计方法应用于本报告。x的CDF实验组的被定义为[10]:
图像(10)
f (x)的概率密度函数是x。模拟结果像阻塞概率和概率主要以常规点在服务区域。
3)阻塞概率和概率下降:阻塞概率和概率下降[11]是我们使用的测量来评估等级的服务。在时间t的阻塞概率可以被定义为:
图像(11)
P (t)的阻塞概率时间Nb (t)的总数是屏蔽系统的激活时间t和Na (t)的总数激活系统的时间t。同样,删除概率定义如下:
图像(12)
PD (t)在哪里时间t的概率下降。ND (t)的总数下降传输时间t和国家安全局(t)是公认的激活时间t的总数。

仿真结果

在本文中,我们使用一个基于事件的场景和在每个事件的随机子集对被激活,本文中使用系统参数如表2所示。可用的频谱将由单个分区自动强化学习,因此CR用户可以避免不当的频谱。图3 (a) (b)代表频道如何分区出现在模拟。少量的10本模拟中使用定义可用频道的数量和用户的数量。
图像
图像
初的模拟(图3 (a)), CR用户使用同样几乎所有资源。模拟一定时间后,在100年事件(图3 (b))几个频道已经显示他们重视某些用户,用户3喜欢频道8和用户2喜欢通道3。然而,通道的使用用户1仍然相当等于在这个阶段。可以看出,频谱共享建立平衡,因此信道使用聚合的几个首选渠道。CR用户可以避免碰撞,利用他们的经验与学习结果。
图像
图像
图4 -图5分别说明阻塞和下降的CDF实验组的概率。阻塞概率是衡量在常规服务区域和一个累积分布函数(CDF)系统阻塞的概率在这些点。为了分析系统中断的水平,它的概率计算同时下降。所有CR用户的参数为每个方案的评估是完全相同的,不同的系统性能造成只有不同的权重因子值。

结论

在本文中,我们介绍了认知无线电的强化学习模型和一些基本的基于强化学习频谱共享方案。利用学习的能力,认知代理可以记住他们首选的通信资源,使一个有效的方法进行相应的频谱感知和分享。仿真结果表明,基于强化学习的频谱共享算法实现问题算法相比更好的系统性能。

引用













全球技术峰会