孟萧峰
大连理工大学计算机科学与技术学院
摘要(Abstract):
随着5G、6G通信技术的快速迭代以及物联网、元宇宙、自动驾驶等新兴应用的爆发式增长,移动终端数据流量呈现指数级攀升态势,传统云计算架构中“终端-云端”的集中式数据处理模式已难以满足时延敏感型、计算密集型应用的服务需求。移动边缘计算(Mobile Edge Computing, MEC)作为一种将计算、存储、通信资源下沉至网络边缘的新型架构,通过在靠近终端用户的边缘节点部署缓存资源,能够有效缩短数据传输距离、降低网络拥塞、提升服务响应速度,成为解决上述困境的核心技术之一。缓存策略作为MEC系统资源优化的关键环节,其性能直接决定了边缘节点资源利用率、用户服务质量以及系统整体运行效率。然而,MEC场景具有用户移动性强、业务请求模式动态多变、边缘节点资源有限、多节点协同复杂等固有特性,传统静态缓存策略和基于统计规律的动态缓存策略,由于缺乏对环境动态变化的自适应能力和全局优化能力,难以实现缓存资源的最优分配。深度强化学习(Deep Reinforcement Learning, DRL)融合了深度学习的特征提取能力和强化学习的序贯决策能力,能够在未知动态环境中通过与环境的持续交互,自主学习最优决策策略,无需依赖先验知识和固定模型假设,恰好适配MEC缓存决策的动态性、不确定性和复杂性需求。基于此,本文围绕移动边缘计算中基于深度强化学习的缓存策略展开深入研究,旨在解决传统缓存策略在动态场景下适应性差、优化效果有限的问题,提升MEC系统的服务性能和资源利用效率。本文首先系统梳理了移动边缘计算和深度强化学习的相关基础理论,明确了MEC缓存系统的核心架构、缓存机制以及DRL的核心原理和典型算法特性。其次,针对MEC场景的核心需求,构建了基于DRL的MEC缓存决策模型,明确了缓存优化的目标的约束条件,设计了适配MEC场景的DRL框架,包括状态空间、动作空间和奖励函数的具体设计方案,实现了对缓存内容的动态选择、更新和替换的智能决策。然后,针对MEC场景下状态空间高维化、训练过程不稳定等问题,对DRL算法进行了针对性改进,优化了神经网络结构以提升高维状态的特征提取能力,改进了经验回放和目标网络策略以提升训练稳定性和收敛速度。为验证所提缓存策略的有效性和优越性,本文搭建了基于仿真平台的实验环境,选取典型传统缓存算法和现有DRL缓存算法作为基准,从缓存命中率、平均访问时延、系统能耗三个核心指标出发,开展了大量对比实验和鲁棒性测试。实验结果表明,本文提出的基于DRL的MEC缓存策略,在不同用户请求模式、不同边缘节点资源配置、不同用户移动速度等场景下,均能显著提升缓存命中率,降低用户平均访问时延和系统能耗,相较于传统缓存策略和现有DRL缓存策略,性能提升效果显著,具有良好的适应性和鲁棒性。最后,本文总结了研究成果,分析了当前研究工作中存在的不足,并结合MEC技术和DRL技术的发展趋势,提出了未来的研究方向,包括多边缘节点协同缓存优化、结合联邦学习的隐私保护机制探索等,为后续相关研究提供了参考和借鉴。本文的研究工作对于推动MEC缓存技术的智能化发展、提升边缘计算系统的服务质量和资源利用效率具有重要的理论意义和实际应用价值。
关键词(KeyWords):
移动边缘计算;深度强化学习;缓存策略;动态决策;资源优化;服务质量
参考文献(References):
[1]陈志刚,李肯立.移动边缘计算技术与应用[M].北京:科学出版社,2020.
[2]张伟楠,俞勇.深度强化学习:原理与实践[M].北京:机械工业出版社,2021.
[3]曹健,陈贵海,金海.边缘计算中的缓存技术研究综述[J].计算机学报,2019,42(06):1223-1244