皮盼资讯网移动版

皮盼资讯网 > 潮流时尚 >

基于预测的DC间流量增量调度研究(2)

对于大型在线服务提供商,一个很重要的数据通信模式是DC(Data Center)间的大量数据复制,在DC间进行数据复制所用的流量占DC间所有流量的主要部分。随着提供商将越来越多的数据中心部署到全球各地,以及海量数据的急剧膨胀,DC间的数据复制需要以一种更加频繁而且高效的方式来进行。

在数据中心间进行数据复制所使用的流量,占据数据中心间总流量的一大部分,同时也占据了每种应用类型总流量的一大部分。基于这样的事实,优化数据中心间数据复制的性能就显得十分重要。

对于数据中心间的数据复制,它们传输的目的地是大部分的数据中心,而不是少数的几个数据中心,而且在传输和传输之间,源数据中心和目的数据中心都有很大的差异。这一现象表明,想要事先配置好所有可能的数据复制请求是不切实际的。因此需要这样一个系统,它能自动地路由和调度所给的任意数据复制传输请求。

数据中心间数据复制的规模通常很大,60%的数据复制的规模超过1TB,而90%的数据复制的规模超过50GB。假定分配给每个DC间数据复制传输的总广域网带宽是几GB每秒,这些传输不是临时的而是持续的,通常最少持续数十秒,则任何优化数据复制传输的方案都必须动态地适应数据传输过程中的任何性能变化。另一方面,这种时间持久性也意味着数据中心间的数据复制传输可以容忍由集中控制机制引起的少量延迟。

3.2 实时增量调度

基于这样的动机,本文提出了一个集中化的近似最优的应用层网络系统,它把数据分成细粒度的单元,通过瓶颈不相交的覆盖链路[10]并行地发送它们,动态地共享带宽。本系统的核心是一个集中化的决策制定算法,它几乎实时地周期性地批量更新覆盖路由决策。通过将路由和决策进行解耦,本系统能够找到最佳的解决方案,同时做出近似实时的更新,得到满意的结果。

为了实现可扩展性,提高对网络动态的响应,广域覆盖网的传统思路在某种程度上依赖于单个节点(或中继服务器)的局部适应[6][9][11][12],尽管因此会由于缺乏全局视图和协调而达到次优的性能。与此相反,本系统认为,将广域覆盖网的控制完全集中,同时在配置数据中心间的组播时实现近似最优的性能是可行的。概括地说,本系统有一个集中控制器,它周期性地从所有服务器拉取数据传输状态的信息,更新有关覆盖路由的决策,把它们推送到在服务器本地上运行的代理。并且当控制器出现故障或无法访问时,系统会退回到传统的非集中的控制模式。

集中化的系统能够产生接近最优的决策,但同时也会导致很小的更新延迟,因此要考虑在两者之间进行权衡。达到平衡的关键是近似最优的高效的覆盖路由算法,它可以做到几乎实时地更新决策。然而,由于决策空间十分庞大,使用标准路由和线性规划的方法很难得到近似最优的决策,这是实现集中控制的关键问题。

本系统以集中的方式周期性地(默认为3秒)更新路由和调度决策,每个周期的工作流程如下:

1) 由运行在每个服务器本地的代理确认本地的状态,包括数据块的传输状态(哪些块到来,哪些块未完成),服务器的可用性,磁盘故障,等等。

2) 然后这些数据被包装成一个控制消息,通过代理监视器的高效的消息传递层发送给集中化的控制器。

3) 控制器也从网络监视器接收网络层的数据(延迟敏感型流量的带宽消耗,以及每条数据中心间链路上的利用率)。

(责任编辑:admin)