[原创] The Datacenter as a Computer -译文

trybestying · 发表于 2012-7-18 14:53:13

本帖最后由 trybestying 于 2012-7-26 17:59 编辑

大型的并行应用程序通过使用冗余计算技术，也可以提高响应时间。有几种情况会导致大型的并发工作的某一个给定的子任务比其它的任务慢得多,要么由于其他工作负载或者软件/硬件故障而产生的性能干扰。冗余计算没有像其他技术那样被广泛部署,因为涉及易见的开销。
然而,有些情况下完成一个大型的工作是被举起来执行一个非常小的比例的子任务。这样的一个例子就是掉队问题,在MapReduce的技术白书中描述[19]。在这种情况下,一个单一较慢的任务可以决定一个巨型并行任务的响应时间。MapReduce的策略是识别这种情况的末尾,一份工作和大胆的多余的工人开始工作,只是那些对慢。这个策略增加资源的使用几个百分点,同时减少一个并行计算的完成时间超过30%
2.3 CLUSTER-LEVEL INFRASTRUCTURE SOFTWARE
就像电脑操作系统层管理资源和提供基本服务一样,由成千上万的计算机、网络和存储组成的系统同样需要一个软件层,使其在更大规模上提供类似的功能。我们称这种层为集群层基础设施。下面的段落描述这一的四大类基础设施软件。
2.3.1 R esource Management 资源管理
资源管理是集群层基础设施层最不可缺少的组件。它手动或静态给用户或任务分配服务器组这，控制用户任务到硬件资源的映射。或更高级别的抽象、自动化分配资源，并允许资源合理级的同享。
2.3.2 Hardware Abstraction and Other Basic Services 硬件抽象和其他基础服务
大规模并发应用需要一组的基础服务，如分布式存储可靠性，消息传递，集群层同步等，在大型集群中恰当的实现这类功能的高性能和高可用性，是很复杂的。明智的做法是避免为每个应用程序重新实现这种棘手的代码,而是创建可以重用的模块或服务。Google和 Amazon的GFS，Dynamo和Chubby是大型集群开发中存储可靠性和锁服务的很好例子。
2.3.3 Deployment and Maintenance 部署和维护
在大规模系统中，许多任务都需要手动过程，在一个小的部署中需要大量的基础设施的有效操作。例如软件的图像分布和配置管理、监控服务的性能和质量,和在紧急情况下的筛选报警器操作。Microsoft 的自动化系统提供了示例设计，如Windows Live数据中心的功能。监控整体的硬件健康，认真监控、自动诊断,以及自动化的修复工作流程。Google的系统健康基础设施（Pinheiro 等），就是典型的软件基础设施的有效健康管理。性能调试和优化同样需要专门的解决方案。在加州大学伯克利分校开发的X-Trace系统就是很好的例子。
2.3.4 Programming Frameworks 编程架构
建立基础设施软件，为所有应用软件隐藏底层集群硬件的复杂性。 MapReduce [19], BigTable [13], and Dynamo 是很好的基础设施软件的例子，,通过自动处理数据分区、分布和容错等，极大地提高程序员在相应领域的生产力。

trybestying · 发表于 2012-7-19 09:19:38

2.3.4 Programming Frameworks编程架构
建立基础设施软件，为所有应用软件隐藏底层集群硬件的复杂性。 MapReduce [19], BigTable [13], and Dynamo 是很好的基础设施软件的例子，,通过自动处理数据分区、分布和容错等，极大地提高程序员在相应领域的生产力。
2.4 应用层软件
2.4.1工作负载的例子
两大类工作负载：在线和离线
2.4.2 在线应用 WEB搜索
2.4.3 离线应用 Scholar Article Similarity

2.5 监控基础设施
2.5.1 服务层仪表盘
使操作者快速识别服务层问题，但缺乏问题的详细信息。
2.5.2 性能调试工具
分布式系统跟踪工具，实现方式分两大类：1.黑盒监控系统，例如 WAP5和the Sherlock system。2.应用/中间件仪表系统,例如: Pip , Magpie,和 X-trace. Dapper系统(GOOGL 基于注解的跟踪工具.
不论是服务层仪表盘,还是性能调试工具,仅能测量应用程序级的健壮和性能.它们的设计是基于容认硬件故障的,将错识大量的低层硬件问题.
2.5.3平台层监控
持续不断的检查和监控计算平台健康性的工具,需要理解和分析硬件和软件故障.在第6章将详细描述GOOGLE采用的监控工具.
2.6 购买&自建
传统IT会使用大量第三方软件组件.但GOOGLE的应用特定逻辑以及很多集群层基础设施软件均自行开发,平台层软件则采用第三方组件构成,但都是开源的,在需要的时候可自行修改.所以GOOGLE更多的整个软件栈是在应用开发者的掌控之下。这种方式增加了大量的软件开发和维护工作,但获得了灵活性和成本效率的重大好处。何况没有一家软件提供商能够管理和维护像GOOGLE这样规模的数据中心，GOOGLE的软件体系依据自身业务特性而灵活实现，保证了软件的灵活性和高效性。

trybestying · 发表于 2012-7-20 17:27:26

第3章硬件构建块
主要的构建块是服务器硬件，网络结构和存储体系组件。本章将聚焦服务器硬件选择。
3.1 硬件成本效率
低端服务器集群成为WSCs的首选构建块，有很多的原因，其中主要的原因就是成本效率。
3.1.1 并发应用性能
低端服务器
3.1.2 How Low-End Can You Go?

1）降低成本的同时，也带来了开发量的上升，因为大多的应用必须显式地并行或进一步优化。
2）网络的需求也会增加更大数量的小系统,增加网络延迟和网络的成本。低端服务器内部联接的带宽成本有可能会抵消采用CUP所带来的成本优势。
3）较小的服务器可能会导致低利用率。
4）甚至高度并行算法，当计算和数据被划分成小块时，有时也会效率更低。
　一般说来,相对有竞争力的高端服务器，较低端的服务器构建块必须有一个健康的成本效率优势,。
3.1.3 Balanced Designs
计算机建筑师被训练来从不同的构建块组成的WSC找到正确的组合，来解性能和容量问题。记住三个重要的注意事项:
1．聪明的程序员可能能够调整他们的算法,以更好地满足更便宜的设计方案，但要适度，程序不能太过于复杂。
2．对于硬件，可能最有效的均衡配置，是匹配合并多个工作负载的资源需求，而非完全适合每一个工作负载。
3．可替换的资源往往是更有效的利用。提供WSC合理的连通性，努力应该放在创建可以在远端服务器上灵活地运用资源的软件系统上。这在很多方面影响平衡的决策。
正确的设计点不仅仅依赖于工作负载的高层结构本身，数据大小和服务流行也扮演了重要的角色。

trybestying · 发表于 2012-7-20 17:29:08

第4章数据中心基础
数据中心本质上是非常大的消耗电力和产生热量的设备。还需要额外的冷缺系统来解决热量。数据中心大量的建设成本，在其所需要的电力供给以及制冷系统，对于大型数据中心，典型的建设成本都在10到20美元/ W，但根据大小、位置和设计，相差很大。
4.1 DATACENTER TIER CLASSIFICATIONS 数据中心等级分类
数据中心的总体设计经常分为1-4个等级：
I． I级单路电力和冷却分布路径,没有冗余的部件。
II． ⅱ级增加了冗余组件设计(N + 1), 提高可用性
III． 3级有多个电力和冷却分布路径但仅有一个活动路径。有冗余部件，同时可维护。也就是说，　　甚至在维护期间提供冗余性,通常是N + 2的设置。
IV． 4级有两路活动的电力和冷却分布路径,每路提供冗余组件，能容忍任何单一的设备故障，均不　　影响负载。
　以上分级并不是100%精确。大多数商业数据中心介于III和IV之间,在建设成本和可靠性之间选择一个平衡点即可。现实世界数据中心的可靠性也受组织运行质量的强烈影响，而不仅是数据中心的设计。典型的用于工业范围的数据中心的可用性评估ⅱ级为99.7%，III级和IV级分别为99.98%和99.995%。
　数据中心大小差别很大。三分之二的美国数据中心的服务器被安置在小于5000平方英尺(450平方米),且用不到1兆瓦的临界功率。大多数大型数据中心主机服务器的建立来自多个公司(通常称为数据中心托管,或“colos”)，并且可以支持10 - 20 MW的临界荷载。现如今很少有超过30兆瓦临界能力的数据中心。

trybestying · 发表于 2012-7-21 21:57:13

本帖最后由 trybestying 于 2012-7-21 22:08 编辑

4.2 数据中心能源系统
图 4.1 示意典型数据中心的构成。电源经外部变压器（通常位于通用变电所）进入建筑。这部分的电力系统通常被称为“中压”(通常是10 - 20千伏) ，有别于远程高压线（60–400千伏）和“低压“内部配电(110 - 600伏)。中压线终结在主开关柜，其中包括断路器保护电源故障和变压器来缩减电压至400 - 600 V，低压电源流入不间断电源(UPS)系统。电源发生故障时，由一组柴油发电机为UPS提供电源。

FIGURE 4.1: The main components of a typical datacenter (image courtesy of DLB Associates [23]).
4.2.1 UPS Systems UPS系统
UPS系统有3个功能：
首先,它包含一个转换开关用来选择活动的电源输入。保证UPS电源系统不间断供电，当市电故障时，能够自动感知并在10 - 15 秒内完成额定载荷的供给。
其次，UPS包含电池或旋转飞轮储能系统来桥接市电和备用电能。完成直流-交流-直流的转化。当市电正常时，电池将直流电存贮，故障时，将存贮电能输出。
最后，UPS控制输入电压，消除电压峰值或松弛，或直流电中的谐波失真。　这种调节通过双转换步骤自然地完成。
因为UPS电池占用大量的空间,UPS通常安置在单独的UPS房间,而不是在数据中心的地板上。典型的UPS尺寸范围从数以百计的千瓦到2兆瓦。
4.2.2 Power Distribution Units 配电单元
UPS输出到配电单元，似类居家中的断电板，分布在数据中心地板下方。配电单元将大电压（200–480 V)分解决为多路110- or 220-V 的电压供服务器使用。每个电路都有自己的断路器保护,以便在地面服务器短路或电力供应故障时只影响某一路，不会影响整个PDU，甚至整个UPS。一个典型的PDU　　负载75 - 225千瓦。典型电路处理20或30A在110 - 220 V电压下，最大值为6千瓦。通常pdu提供额外的冗余以接受两个独立的电源，且两个电源可相互无延迟切换，所以即使一路UPS出故障，也不会中断服务器的供电。
4.3 DATACENTER COOLING SYSTEMS 数据中心冷却系统
数据中心高架地板下的区域，经常用于电力电缆路由的上架,但它的主要用途是分发冷气到服务器机架。
4.3.1 CRAC Units
多采用精密空调等冷却系统，下进风热交换系统。部署冷、热通。
4.3.2 Free Cooling
新的数据中心使用冷缺塔对到达制冷机之前的冷凝器水循环流体进行“免费”预冷。免费冷却并不是真正的免费, 相比用冷水机至冷，它更节能。
或者使用基于乙二醇的散热器。
4.3.3 Air Flow Considerations 空气流动的考虑
改善空气流通有很多种方式。如　　
新的数据中心已经开始从房间上物理分离热通道来消除再循环，并优化CRACs回流路径。这种设置　　整个房间里充满了冷空气(因为热排气都在单独的静压箱或管道系统中),这种,机架中所有服务器会收到相同的气流温度。
4.3.4 In-Rack Cooling 机架冷却
　通常,in-rack冷却器在机架背面增加一个air-to-water换热器,来减弱服务器的热出口热量，以改善CRACs的负载。有些解决方案则由它完全替代CRACs。主要的缺点是,需要冷冻水到每个机架,极大地提高了管道成本，且有水泄漏的担忧。
4.3.5 Container-Based Datacenters 集装箱数据中心
集装箱式数据中心比机架制冷更进一步，采用水冷方式冷却。箱内集成了动力电源部分，和机架，比传统数据中心密度高。
GOOGLE于2005建立并运营集装箱式数据中心，尽管这个想法可以追溯到2003年谷歌专利申请。
这种数据中心有非常高的能源效率等级。微软公司还宣布, 新数据中心将严重依赖于集装箱式。

trybestying · 发表于 2012-7-25 11:51:19

本帖最后由 trybestying 于 2012-7-25 11:54 编辑

第5章能源和功率效率
数据中心的能源效率越来越受到人们的关注。有越来越多的节能技术被开发利用到数据中心的方方面面。本章将讨论数据中心能效相关的话题。
5.1 数据中心能源效率

EQUATION 5.1: Breaking an energy efficiency metric into three components: a facility term (a),a server energy conversion term (b), and the efficiency of the electronic components in performing the computation per se (c).

PUE值近年来趋向于更好的水平，得益于人们对能源效率的不断关注以及使用蒸发冷却塔, 　　更高效的空气流动,等手段来取消不必要的能量转化的损失。
5.1.1 数据中心效率损失源
UPS 是主要的效率损失源之一，其次是冷缺系统。
5.1.2 提高数据中心的能源效率
将置冷通道的温度由20C.提高到25–27C，有效管理热通道，使用高速的飞轮以降低UPS和能源配送系统的损耗。
Google 2008年PUE达到1.24，与其他数据中心相比，主要有以下几方面的不同：
       留神空气流处理：
服务器的热空气消耗，不允许混合冷空气，冷却线圈路径很短，避免很长的距离来传递冷热气而带来的能耗。
       升高冷过道温度
冷过道总是保持在大约27°C，相比18 - 20°C。更容易有效地冷却数据中心。
       使用免费冷却技术
若干个冷却塔通过蒸发水散热,极大地减少了运行制冷机的需求。在大多气候数温和时,冷却塔可以消除大多数的冷水机组的运行。谷歌在比利的数据中心甚至完全消除了制冷机，免费冷却运行时间为100%。
       每个服务器12-V直流UPS
每个服务器包含一个最小电池UPS，这种电池电力供应和效率是99.99%。电力基础设施从大约90%下降到接近99%。

所有的数据中心均可采用上述技术，使 PUE 达到 1.35 ~ 1.45。

服务器的SPUE 值通常在f 1.6–1.8 之间，更好的可以低于1.2。
5.2 测量计算的效率
Joulesort 和 SPECpower_ssj2008基线
5.2.1 一些有用的基线
SPECpower_ssj2008是一个利用标准Java的JDK计算整体服务器性能，并根据其11个不同工作负载区域段的功耗得出服务器的工作负载/能耗比的测试方式，这更像是一个性价比--SPECpower_ssj2008的测试方式是：以一个服务器最大的workload为100%指标，每10%的workload降低为一个区域段，对比在每个不同的workload区域段之内的能耗。
5.2.2 Load vs. Efficiency
GFS
将通讯流量转化为所有机器的较低的活动。
Tickless kernel project 提供了建立和维护闲置资源的另一个示例。

trybestying · 发表于 2012-7-25 11:56:17

本帖最后由 trybestying 于 2012-7-25 11:58 编辑

5.3 ~5.8暂缺

第6章构造成本
数据中心的成本可分为建设资本成本和运营维护成本两大类
TCO=datacenter depreciation +datacenter Opex +server depreciation+server Opex

6.1 资本成本
数据中心建设本成很大成度上取决于设计，规模，所处位置以及建设速度。添加可靠性和冗余使得数据中心成本更昂贵。通常, 大约80%的总工程造价来自于电力和冷却,剩下的20%为一般建筑和场地建设。
不论是非常小的或非常大的数据中心的成本都趋向于越来越高。　（前者由于固定成本无法分期摊销，后者因为大型中心需要额外的基础设施，如所变电站等）。
一般经验，许多大型数据中心的建设成本都在$12–15/W，（这里指的临界负载功率，即可以提供给IT设备的峰值功率）小型则更高些。例如,一个数据中心20MW发电机，2 N配置，只提供6兆瓦的临界负载功率(加上4兆瓦电力冷却器)。因此,如果建造费为1.2亿美元, 则$20/W,而非$6/W。通常,成本采用美元/每平方英尺的方式来表示，但是没多大用处。行业专家多避免采用这种成本表述方式。

数据中心每月的折旧费用(或摊销费用),结果取决于最初的建筑费用持续的投资摊销(有关其使用寿命)和假定的利率。通常,数据中心的折旧周期超过了10 - 15年。根据美国会计准则,通常使用直线折旧即每月下降固定数量的资产价值。例如,15美元/ W的数据中心的折旧（周期超过12年）, 折旧成本是0.10美元/ W /月。如果建设资金借债利率为8%,相应每月支付利息增加额外的0.06美元/ W 的成本, 总计每月0.16美元/ W。通常利率会随时间变化, 但许多公司将支付10 - 13%的利息。
服务器的折旧成本同上（除折旧周期短些，一些为3~4年），采用$？/W 的方式，使用服务器峰值时的真实能耗为标准。例如，4000美元的服务器实际峰值功率消耗500 W，成本为8美元/ W。4年以上折旧期,服务器成本0.17美元/ W每月。利率8%，则每年利息增加额外0.03美元/ W每月,总计0.20美元/ W每月,差不多和数据中心每瓦成本相同。
6.2 运营成本
数据中心运营成本比较难描述，因为很大程度取决于运营标准。（在同一时间有多少保安执勤，发动机检测服务多长时间一次）和数据中心的规模。成本还受物理位置（气候、税收、工资水平等）以及设计和寿命的影响。简单期间，将成本分摊为$？/W每月（包括安防，维护以及电）。　在美国，典型的multi-MW数据中心运营成本为0.02美元~0.08美元/ W每月,不包括实际的电力成本。
同样的，服务器还有运营成本。除基础设施本身运行成本,还需要关注硬件维护和维修,以及电力成本。服务器维护成本差异很大,取决于服务器类型和维护标准（例如,4小时响应时间vs.两个工作日）。
同样,在传统IT环境中,大部分的运营成本在应用,就是说,软件许可证，系统管理员、数据库管理员、网络　　工程师的成本等等。在这里将不包括这些应用成本，因为关注物理基础设施的运营成本,还因为应用成本因环境不同而相异较大。
6.3 案例研究
大量案例研究表明，在长期内，数据中心设施费用(比例的能耗)将占总成本的很大部分。（服务器的购买价格将不那么重要，主要的是能耗。）

软件性能和服务器利用率同样重要

trybestying · 发表于 2012-7-26 17:49:40

本帖最后由 trybestying 于 2012-7-26 17:53 编辑

第7章处理故障和维修
确定适当级别的可靠性,从根本上讲是在故障(包括修理)和防止故障的成本之间的权衡。传统服务器失效成本被认为是非常高的,因此设计师不惜一切地提供更可靠的硬件，通过添加冗余电源、风扇、纠错编码(ECC)、RAID磁盘,等等。许多传统企业应用不是被设计来渡过频繁发生硬件故障,当故障发生时很难幸免。
　(WSCs)的硬件难以做到“足够可靠“因其规模。WSC应用程序必须在软件上解决服务器故障,要么在应用程序本身用代码实现或通过提供的功能或通过中间件，如开通虚拟机系统在一个空闲节点重启一个故障VM。编写软件用于这样的环境，Hamilton进行了一些启发性论述，这些论述基于一些大型服务（MSN和Windows Live）的设计和操作经验。
7.1 基于软件的容错能力的影响
尽可能的,应该尝试实现一个容错软件基础设施层,以避免应用程序级软件直面该层太多的故障复杂性。
GFS是个很有用的用于存储系统的例子，数据更新（需要与多个系统通讯以更新所有副本）引发网络开稍的增加，但提高了聚合读带宽，客户端可以从多个端点访问数据。
现代DRAM系统是一个很好的例子，在一个非常低的额外硬件成本下，可以提供强大的误差修正。GOOGLE下一代服务器将使用ECC DRAM。
7.2 故障分类　
7.2.1 Fault Severity 故障严重性
服务级故障大致分类：
破坏性的：提交的数据是无法再生,丢失或损坏
服务不可达的:服务停止或其他用户不可达
服务降级:服务是可用的,但在一些降级模式
故障掩蔽的:发生了故障,但完全隐藏在用户的容错软件/硬件机制
如果故障不能掩蔽，则可采用服务降级的方式（由Brewer提议），这被设计集群级软件服务所普遍采用。互联网搜索和邮件服务就是很好的例子。
即使互联网服务完全可靠的，用户的平均感知也不会大于99.0%的可用性。因为受互联网本身可用性限制。
测量服务可用性的标准是yield （由Brewer提出），即满意服务请求数除以总的服务请求数所得的分值。
总之,近乎完美的可靠性在互联网服务中不是普遍要求。
7.2.2 服务级故障的源由
据 Oppenheimer et al研究得出结论：,由操作导致的故障或错误配置引发的故障是最多的。由硬件相关引发的彻底故障事件(服务器或网络)占10 - 25%。
GOOGL的故障源如下图：

7.3 机器故障
7.3.1什么导致机器崩溃
软件更容易导致机器崩溃，而硬件中的内存和磁盘也是导致机器崩溃的焦点。
DRAM soft-errors. DRAM 软件错误
Disk errors 磁盘错误
　值得一提的是精心设计的容错软件的一个关键特性是幸免无是硬件或软件错误引起的个别错误的能力。
7.3.2 Predicting Faults预测故障
采用预测模型来预测出故障，预测模型必须具有更大的准确性，在经济上具备竞争。
Pinheiro et a描述谷歌试图为磁盘建立预测模型，将基于磁盘驱动器故障健康参数，可以通过自我监测分析和报导技术标准。他们断定这些模型是不可能预测大多数故障，且预测到相对不精确的故障。我们通常经验是,只有一小部分故障类, 可以以足够高的精度被准确预测，为WSCs产生有用的操作模型。
7.4 REPAIRS 修复
高效的修复过程是至关重要的，在WSCs总体成本效率中。下图是GOOGLE系统健康自检架构。
7.5容忍故障,不隐瞒故障

黑白人生-Alex · 发表于 2012-11-19 10:29:19

楼主，真是太欣赏你了，其实这篇文章我也在翻，不过水平真的很有限，所以只敢留着自己看，加油吧，有机会可以讨论下。

[传递书] [原创] The Datacenter as a Computer -译文

2.3 CLUSTER-LEVEL INFRASTRUCTURE SOFTWARE

本帖子中包含更多资源

本帖子中包含更多资源

第7章处理故障和维修

本帖子中包含更多资源

使用高级回帖 (可批量传图、插入视频等)快速回复

浏览过的版块