基于Stackelberg博弈的多任务协作频谱感知算法

(1. 南京邮电大学江苏省无线通信重点实验室, 江苏南京 210000;2. 南京邮电大学教育部泛在网络健康服务系统工程研究中心, 江苏南京 210000)

摘要：随着移动设备的增多,认知无线电技术诞生,而频谱感知是认知无线电技术中的重要一环。本文将群智感知和频谱感知结合,提出了一种基于Stackelberg博弈的多任务协作频谱感知算法。该算法将融合中心(平台)与次用户分别建模为Stackelberg博弈领导者和从属者。在领导者博弈中,平台给次用户发布最优的报酬值以获得最佳的效用;在从属者博弈中,本文着重考虑了剩余能量对次用户的影响,次用户在平台给的报酬下改变感知时间以获得最优的效用。仿真结果表明,该算法可以提高融合中心对频谱的检测概率。

引用格式: 张小盈, 朱琦. 基于Stackelberg博弈的多任务协作频谱感知算法[J]. 信号处理, 2020, 36(1): 77-83. DOI: 10.16798/j.issn.1003- 0530.2020.01.010.

Reference format: Zhang Xiaoying, Zhu Qi. A Multi-task Cooperative Spectrum Sensing Algorithm Based on Stackelberg Game[J]. Journal of Signal Processing, 2020, 36(1): 77-83. DOI: 10.16798/j.issn.1003- 0530.2020.01.010.

A Multi-task Cooperative Spectrum Sensing Algorithm Based on Stackelberg Game

(1. Jiangsu Key Laboratory of Wireless Communications, Nanjing University of Posts and Telecommunications, Nanjing, Jiangsu 210000, China; 2. Engineering Research Center of Health Service System Based on Ubiquitous Wireless Networks, Ministry of Education, Nanjing University of Posts and Telecommunications, Nanjing, Jiangsu 210000, China)

Abstract: With the increase of mobile devices, cognitive radio(CR) has emerged as an innovative technology. Spectrum sensing is an important part of CR technology which can detect whether the primary user is present or not. A multi-task cooperative spectrum sensing algorithm based on Stackelberg game is proposed in this paper, which applies crowd sensing and game theory to study spectrum sensing. In the Stackelberg game, the fusion center (platform) is modeled as the leader, while secondary users are modeled as the follower. In the leader game, the platform publishes the optimal reward value to the secondary users to get the optimal utility. In the follower game, we focus on the influence of residual energy on the secondary users. In this stage, the secondary users under the same task constantly adjust their participation time under the reward of the platform to achieve equilibrium. Eventually, the secondary users can obtain their own optimal utility. The simulation results show that the algorithm can improve the detection probability of the fusion center.

1 引言

随着用户无线设备数量的不断增加,频谱资源紧缺的问题日益严重,传统的固定频谱分配方法并没有合理分配频段,认知无线电(cognitive radio,简称CR)应运而生,解决当前频谱效率低下的问题[1]。在认知无线电中,次用户被允许在主用户空闲的时候使用主用户的无线电资源,因此,对主用户的频谱进行频谱感知的过程非常重要[2]。

次用户对主用户的授权频段进行感知,得到频谱的占用情况,但是在信噪比很低的情况下,单用户检测性能比较差,因此需要多用户进行协作频谱感知。文献[3]提出了一种基于双门限能量检测的协作频谱感知算法,该算法采用噪声不确定条件下的双门限值作为判决条件,将本地能量检测结果划分为硬判决和软判决。文献[4]提出一种基于动态自适应双门限能量检测的序贯协作频谱感知算法,以最优化检测概率为目标,采用序贯方式对协作用户进行动态自适应双门限建模,并对处于两门限之间的接收能量值进行软判决。文献[5]提出了基于能效的用户选择协作频谱感知方案,该方案只有一个次用户广播检测结果,其余的次用户同意的静默,不同意的上报数据,该方案减少了上报数据的次用户,提高了能效。在协作频谱感知中,为了得到更准确的数据,就需要大量的用户参与,但是用户积极性的缺乏是现有的一大问题,为此,本文在频谱感知中引入群智感知的激励机制。

群智感知(Crowd Sensing)通过分布的个体收集样本的一种感知范式,基于智能手机等智能设备中的传感器,参与者可以收集数据并上传到服务器,服务器再对参与者的数据进行处理。合理的群智感知激励机制可以提高用户参与积极性。文献[6]提出了基于平台的Stackelberg博弈模型,在该模型中,平台为领导者,次用户为从属者,双方不断博弈直到达到纳什均衡。文献[7]提出了逆向拍卖的模型,平台公布任务,用户根据自己的成本提出报价,并提出了虚拟信用、投资回报比的概念,激励失败的用户重新参与。文献[8]在逆向拍卖的模型基础上考虑用户位置的影响,用户根据自己的位置选择感知的任务集,这样可以减少用户的成本。文献[9]将群智感知的激励机制和频谱感知融合,提出Stackelberg博弈和联盟博弈结合的方法,对于平台,有最佳的报酬值,对于用户,用户先根据效用函数决定自己的检测概率,再根据自己的检测概率和成本决定是否加入联盟。文献[10]也在频谱感知中融入激励机制,采用贝叶斯博弈,用户通过其他用户的分布类型来确定自己的最优策略。

上述研究中,文献[6- 8]单纯的研究群智感知激励机制,没有将群智感知激励机制具体应用到频谱感知的具体场景中,群智感知激励机制可以激励用户参与,与频谱感知的场景结合,可以得到更准确的频谱信息。文献[8]虽然将群智感知和频谱感知结合,但是只考虑了单个频谱的情况,但是现实情况中,平台在同一时刻可能需要多个频段的占用情况。本文将群智感知和频谱感知结合,并考虑频段感知的场景,提出基于Stackelberg博弈的多任务协作频谱感知算法,次用户根据的效用函数由得到的报酬和成本组成,平台效用函数由最终的检测概率和付出的报酬组成,次用户和平台根据各自的效用函数进行Stackelberg博弈,平台通过博弈得到最优的报酬,次用户通过博弈得到最优的感知时间。仿真结果表明,该算法可在平台预算受限的情况下有效提高次用户的参与积极性,频谱感知性能得到提升。

本文内容安排如下:第2部分给出系统模型,第3部分提出了基于Stackelberg博弈的多任务协作频谱感知算法,第4部分是本文算法的性能仿真与分析,最后是本文的结束语。

2 系统模型

如图1所示,在半径为R的圆内均匀分布着M个主用户,不同主用户占用不同的频段,N个次用户(i=1,2,…,N)可以感知任意一个主用户的频段,但是在同一时间次用户只能感知一个主用户的频段,融合中心(平台)针对M个主用户所使用的频段发布M(j=1,2,…,M)个授权频段的感知任务,次用户根据感知成本决定参与的任务和感知的时间,然后将感知结果发送给融合中心,融合中心对次用户的感知信息进行融合以获得最终的感知结果,并给参与次用户一定的报酬。

在频谱感知中次用户采用能量检测的方法感知主用户的频谱,由文献[12]可知,次用户i对主用户j的频段的检测概率为:

其中,pf为次用户i虚警概率,γij为次用户i感知主用户j频段的信噪比,tij为次用户i对主用户j频段的感知时间, fs为采样频率,Q函数为:

当Q函数中的x大于0的时候,检测概率pij<0.5,此时次用户的检测概率不具有参考价值,因此本文要求pij>0.5,同时

本文的平台(融合中心)采用表决准则对多个次用户上报的感知信息进行融合,表决融合系统的检测概率PD和虚警概率PF分别为[11]:

其中

表示次用户i的检测概率,

代表次用户i的虚警概率,ui的取值为0和1。

3 多任务协作频谱感知算法

本文将多任务协作频谱感知算法建模为Stackelberg博弈,Stackelberg博弈模型分为两层,在本文中,平台是领导者,次用户是从属者。首先平台发布多个频段的感知任务信息,次用户根据感知成本决定参与的任务,平台和次用户进行Stackelberg博弈,平台作为领导者博弈确定付给次用户的报酬,次用户作为从属者博弈得到最佳感知时间。

3.1 感知频段(任务)的确定

在本文场景中存在多个主用户和多个次用户,次用户可以感知任意频段,但是同时只能感知一个频段,本文采用贪心算法确定次用户的感知频段。

首先平台会发布感知任务的信息,次用户根据得到的信息,结合自己的剩余能量、单位成本,根据下式计算V,并选择其中最大的值,参与该最大值对应的任务。

其中Er为次用户的剩余能量,Er∈(0,1),Et为次用户将感知数据传给平台的传输能量,bt为次用户i感知频段j的单位成本,ε、η为常数,代表次用户的剩余能量和次用户感知成本在V中的加权系数,ε、η>0。

上述过程确定了每个任务j参与的次用户集合TASKj。

3.2 领导者平台博弈

平台的效用取决于频谱的检测概率和付出的报酬,感知任务j平台得到的效用定义为

其中a为加权系数,Pj为平台采用表决融合之后的主用户频段的检测概率

为次用户i的检测概率,Rj为平台感知频段支付次用户的报酬。M个任务平台总效用为

假设平台给次用户的报酬的最大值为Rmax,那么在Rj∈(0,Rmax]的范围内一定存在一个最优的报酬Rj使得平台的效用函数值最大。

3.3 从属者次用户博弈

次用户感知频谱会从平台获得报酬,但是感知和信息的发送需要消耗能量,并且次用户从平台得到的报酬和它的检测概率有关,因此次用户的效用函数定义为:

其中pij为次用户i对频段j的检测概率,Rj为平台用于感知任务j付出的报酬。

次用户感知频谱和发送感知信息都会消耗能量,定义为

其中,Es为次用户感知的能量消耗,与感知时间tij成正比关系,Es=bt×tij,bt为单位感知时间消耗的能量,Et为次用户传输数据的能量消耗,与距离四次方的对数成正比,Et=k×log(d4+2),k为衰减系数,wi为能量消耗系数。

剩余能量会影响次用户参与感知的积极性,次用户的剩余能量多,参与的感知任务的意愿会非常高;反之,则不愿意消耗所剩不多的能量去完成感知任务,因此能量消耗系数wi采用log函数表示,定义为:

其中Er为次用户的剩余能量,Er∈(0,1),α、 β为常数。α与β都是加权系数,α、 β>0。β越大说明剩余能量对能量消耗系数的影响越小;α取值越大,wi的数值越大,剩余能量对能量消耗系数的影响越小。

将公式(10)代入公式(9)可得:

次用户效用Uij存在最大值的一个必要条件是对tij的一阶偏导数单调递减且存在负值,所以需要证明二阶偏导数小于或等于0。次用户效用的一阶偏导为

令

明显s′为正值,则Uij对tij二次偏导数为:

由于感知时间、检测概率都为正值,所以公式(15)中的第一部分 width=180,height=72,dpi=110

和第三部分

均为正值,由式(3)得到s<0,所以第二部分 width=190,height=72,dpi=110

为负值。

综上所述,

因此存在一个最优感知时间

使得次用户的效用最大。

3.4 算法步骤

根据上面三个部分的描述,可以得到整个基于Stackelberg博弈的多任务协作频谱感知算法的过程,如表1所示。

4 仿真与结果分析

本文采用MATLAB对算法进行仿真,仿真中圆的半径R为5 km,融合中心的位置在原点,次用户均匀分布在圆内。bt取20 mW/s,k取2,ε、η取1,平台效用中的a取20,虚警概率pf取0.01,采样频率fs取100 Hz。表决融合的门限值取次用户数的一半。本文将提出的算法与随机选择算法进行对比分析。在随机选择算法中,次用户不考虑成本和报酬,随机选择感知任务并参与感知。

本文仿真取M的值为3,每个授权频段次用户的信噪比不同,在频段1上,γij取5～10 dB,在频段2上,γij取2～7 dB,在频段3上,γij取-1～4 dB。α、 β取7,图2给出了不同频段下平台最终得到的检测概率,可以看出信噪比越高的频段检测概率越高,这是因为信噪比越高,单个次用户在同样感知时间下的检测概率越高,根据表决融合的公式,总的检测概率也会越高。

下面讨论α、 β值对检测概率的影响,如图3、图4所示,取不同的α、 β值,可以得到不同的曲线。从图中可以看出,α的值越大,检测概率越小,这是因为α的值越大,能量消耗系数的数值越大,次用户的成本就会增加,次用户为了优化效用,就会较少感知时间,导致检测概率的降低;β的值越大,检测概率越大,这是因为β的值越大,能量消耗系数越小,次用户的成本值就会减小,对应的感知时间会增加,从而提高检测概率。同时可以看出,本文算法的检测概率优于随机选择算法的,这是因为同一用户接收不同频段信号的信噪比不同,导致用户对不同频段的检测概率不同,由于随机算法没有选择检测概率大的频段进行感知,所以检测概率低于本文算法。

图5、图6给出了不同α、 β值情况下的次用户的平均效用和次用户数量的关系图。从两张图中可以看出本文算法的次用户效用是优于随机选择算法的,这是因为本文的重点就是通过博弈使得次用户和融合中心都达到各自的最优效用。同时从图5中可以看出,α的值越大,次用户的效用越高,这是因为次用户成本越高,优胜劣汰,只有感知性能更好的次用户才能留下;从图6中可以看出,β的值越大,次用户的效用越低,这是因为次用户成本越低,更多的用户会参与感知,竞争程度更加激烈,每个次用户分得的报酬变小。

图7、图8描述了不同α、 β值情况下的次用户数量和融合中心效用的关系。融合中心的效用和检测概率、给次用户的报酬有关,其中检测概率的影响更大。从图中可以看出随着次用户的增加,融合中心的效用也会增加,这是由于随着次用户的数量的增加,融合中心对于频段的检测概率也会增加,平台得到收益就会随之变大。同时从图7中可以看出,α的值越大,融合中心的效用越低,这是因为α的值越大,检测概率越低,融合中心收益越低;从图8中可以看出,β的值越大,融合中心的效用越高,这是因为β的值越大,检测概率越高,融合中心收益越高。

5 结论

频谱感知是无线电系统中的重要环节,但是信噪比低的次用户检测概率并不高,因此为了有效地提升频谱感知准确率,本文将频谱感知和群智感知的激励机制结合,提出了基于Stackelberg博弈的多任务协作频谱感知算法,通过融合中心和次用户的双层博弈,得到融合中心和次用户的各自的最佳策略。最后通过仿真显示,本文算法能够激励次用户参与频谱感知,提高了参与感者的积极性,进而提高了感知性能。但是在增加次用户和融合中心的效用的同时,算法复杂度会大大增加。

[1] Xiong T, Yao Y D, Ren Y, et al. Multiband Spectrum Sensing in Cognitive Radio Networks with Secondary User Hardware Limitation: Random and Adaptive Spectrum Sensing Strategies[J]. IEEE Transactions on Wireless Communications, 2018, 17(5): 3018-3029.

[2] Ali A, Hamouda W. Advances on Spectrum Sensing for Cognitive Radio Networks: Theory and Applications[J]. IEEE Communications Surveys & Tutorials, 2017, 19(2): 1277-1304.

[3] 陈长兴, 符辉, 牛德智, 等. 基于双门限能量检测的协作频谱感知算法[J]. 系统工程与电子技术, 2013, 35(8): 1742-1746.

Chen Changxing, Fu Hui, Niu Dezhi, et al. Cooperative Spectrum Sensing Algorithm based on Double-threshold Energy Detection[J]. Systems Engineering and Electronics, 2013, 35(8): 1742-1746.(in Chinese)

[4] 黄河, 袁超伟. 基于动态自适应双门限能量检测的序贯协作频谱感知算法[J]. 电子与信息学报, 2018, 40(5): 25-31.

Huang He, Yuan Chaowei. A Sequential Cooperative Spectrum Sensing Algorithm Based on Dynamic Adaptive Double-threshold Energy Detection[J]. Journal of Electronics & Information Technology, 2018, 40(5): 25-31.(in Chinese)

[5] 张海波, 张劲, 李方伟, 等. 基于能效的用户选择协作频谱感知[J]. 华中科技大学学报: 自然科学版, 2018, 46(10): 92-97.

Zhang Haibo, Zhang Jin, Li Fangwei, et al. User selected collaborative spectrum sensing based on energy efficiency[J]. Journal of Huazhong University of Science and Technology：Nature Science Edition, 2018, 46(10): 92-97.(in Chinese)

[6] Yang D, Xue G, Fang X, et al. Crowdsourcing to smartphones: incentive mechanism design for mobile phone sensing[C]∥International Conference on Mobile Computing and NETWORKING. ACM, 2012: 173-184.

[7] Lee J S, Hoh B. Dynamic pricing incentive for participatory sensing[J]. Pervasive & Mobile Computing, 2010, 6(6): 693-708.

[8] Liu Yuanni, Li Huicong, Zhao Guofeng, et al. Reverse Auction Based Incentive Mechanism for Location-Aware Sensing in Mobile Crowd Sensing[C]∥IEEE International Conference on Communications. IEEE, 2018.

[9] Li Xiaohui, Zhu Qi. Game based incentive mechanism for cooperative spectrum sensing with mobile crowd sensors[J]. Wireless Networks, 2019, 25(4): 1855-1866.

[10] 田赛赛, 赵夙, 朱琦. 基于贝叶斯博弈的协作频谱感知算法[J]. 南京邮电大学学报: 自然科学版, 2018, 38(2): 29-34.

Tian Saisai, Zhao Su, Zhu Qi. Cooperative spectrum sensing algorithm based on Bayesian game[J]. Journal of Nanjing University of Posts and Telecommunications: Natural Science Edition, 2018, 38(2): 29-34.(in Chinese)

[11] 卞荔. 认知无线电系统中基于数据融合的协作频谱感知算法的研究[D]. 南京: 南京邮电大学, 2010.

Bian Li. The Study of the Cooperative Spectrum Sensing Algorithm in Cognitive Radio based on Data Fusion[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2010.(in Chinese)

[12] Liang Y C, Zeng Y, Peh E C Y, et al. Sensing-Throughput Tradeoff for Cognitive Radio Networks[J]. IEEE Transactions on Wireless Communications, 2008, 7(4): 1326-1337.

张小盈女, 1995年生, 江苏江都人。南京邮电大学通信与信息工程学院硕士研究生, 主要研究方向为频谱感知和群智感知。

E-mail: zhangxiaoying95@126.com

朱琦女, 1965年生, 江苏苏州人。南京邮电大学通信与信息工程学院教授, 主要研究方向为移动通信与无线技术。