中国领先的IT技术网站
|
|

揭开网络故障中断的内幕

本文将介绍近期开展的调查结果,以便您了解企业及电信运营商网络经理和决策人如何看待人为错误的潜在影响,然后概述JUNOS软件用于缩短故障中断时间的设计和特性,包括自动脚本执行功能,同时还将阐述这些特性如何帮助您减少错误并提高网络可用性。

作者:嘟嘟来源:IT专家网|2009-04-13 09:37

Tech Neo技术沙龙 | 11月25号,九州云/ZStack与您一起探讨云时代网络边界管理实践


网络是企业的战略性业务资源,负责承载日常消息和关键任务数据,实现用户与业务流程之间的通信。对公司内部的许多用户来说,网络都是像水电一样无法看到的耗用型共用设施,一旦出现故障中断,瞬间便会凸显出来。

网络不可用时会出现什么情况?网络故障中断会对公司形象及客户产生严重影响。员工无法接入电子邮件、电话或关键业务应用,业务流程无法更新,客户可能到别处去查找信息或者投入其他供应商的怀抱。据Infonetics Research早期开展的调查统计,网络故障中断每年使大型企业损失3.6%的年收入。

当然,提高网络可用性只是IT和网络机构的工作之一。随着网络逐渐成为业务战略核心,企业的工作重点也朝着提供新业务、提高灵活性以及创新支持的方向转移。 保持网络的正常运行固然重要,但降低预算也同样重要。为了管理好这组矛盾体,企业需要实施持续的系统方法。

网络故障中断的原因和影响

近期对技术决策人开展的调查显示了对网络故障中断原因进行调查的重要性。Strategy Group2007年7月对Ziff Davis Enterprise数据库中的173人开展了调查,他们都是员工在100人以上的企业中的经理人或更高级别的管理者。回答人称他们对网络故障中断的容忍度越来越低,近1/3(32%)的回答人称他们根本无法容忍故障中断,这组回答人对网络故障中断的平均容忍时间仅为1.8小时。我们不难了解为什么回答人称网络修复的平均成本高达每天300万美元,其中10%的回答人预计网络故障中断造成的损失和收入丢失高达每天1000万美元。

网络故障中断的负面影响不仅限于经济损失。公司形象受损是回答人最担心的问题(69%),其次是丧失客户信任(47%)。考虑到这些潜在后果,公司将70%的IT预算用于维护网络运行,只剩下30%用于实施战略和创新活动不足为奇。总的来说,这组回答人希望这种格局在今后12-18个月中发生变化,达到60/40的比例。

近一半的回答人(46%)称他们的公司采取被动方法来监控网络并解决网络问题。有趣的是,与采取被动的无序方法的公司相比,采取主动的战略性方法的公司用于维护网络运行的IT预算更少,分别是75-80%和60-65%。减少网络运行开支能够创造多个优势,例如,与采取被动方法的竞争对手相比,采用主动方法的公司能够持续创新、提高IT运行效率并实现更高的绩效。

运行团队在提高网络可用性方面面临多个挑战。计划内检修、意外的硬件或软件故障及人为错误等都可能导致网络设备故障停机。这是一个复杂的问题,要想设计出能够最大限度地提高可用性的系统,您需要更深入地了解基本要素。

设备检修

供应商投入大量资源缩短产品的检修时间。因此,检修是网络设备故障中断的最次要的原因,约占到5-10%。一般产品现在都提供热插拔线路卡和电源。冗余的容错软件和不中断的硬件也很普遍。不中断业务的软件升级是最新发展趋势,允许您在不影响现有业务运行的情况下添加或升级软件模块。

业界的一致关注使得网络可用性得到了大幅度提高。虽然保持高性能仍是网络供应商的关注焦点,但它并不能最大限度地提高网络可用性。例如,假设计划内检修对网络故障中断负有5-10%的责任,将网络设备的检修时间缩短20%只能将网络的故障中断时间缩短1-2%。

网络设备故障停机的根源

图1:网络设备故障停机的根源

遗憾的是,这种方法将快速生成多个复杂的、分散的软件版本。用户必须谨慎选择适当的软件版本以便获得重要的特性或硬件支持。有时,不同的软件版本中可能会重复出现以前曾修复好的缺陷。需要全网络特性的客户必须仔细阅读软件文档以确保版本适用于所有不同的硬件平台。等到所有的版本完成编码、测试和最终发行,可能需要等待一年或更长时间。许多时候,升级这些软件可能会带来其他问题,需要客户先行降级,然后等到修复包提供时再实施升级。升级-降级-再升级的重复流程需要操作团队处理不断变化的一系列复杂的软件版本,将会延长网络的故障中断时间。

系统错误对网络故障中断负有25%的责任,但如果供应商采取被动方法,将迫使客户进入被动模式,进而必须提供更多资源来解决问题,甚至不惜动用其他领域的资源。您用在软件版本评估及安装补丁上的时间越长,用在创新上面的时间越短、资源越少;全新网络服务的部署周期越长,人为错误的风险越大。对于25%的故障中断因系统错误而起的公司来说,减少20%的系统错误将使网络故障中断时间缩短5%,但实现这个成效要求客户投入大量资源或者长时间延期全新软件特性和全新硬件的面市计划。

系统错误

供应商还高度重视减少硬件和软件错误,据瞻博网络的许多客户称,这部分占到网络故障中断的25%。然而,他们对此使用了两种截然不同的方法:主动和被动。

被动方法

被动方法有利于市场宣传,供应商承诺能够快速响应重大问题,将倾其所有来解决此类问题,必要时可通过实施软件补丁来解决问题。

主动方法

主动方法听起来简单,但却需要非常严格的工程设计。由于某些问题在所难免,因此,这个方法论注重提前预测并解决潜在问题。对客户来说,主动通知诊断信息可帮助他们缩短甚至避免某些类型的网络故障中断。通知时间越早,故障排除工作开始地越早,用于快速解决问题的可用方法越多。

对于供应商来说,主动方法允许他们集中精力确保按时推出全新的单一软件版本。他们能够逐渐积累一套高级的回归测试脚本,以确保以前开发的所有特性都能继续如期运行。通过避免安装软件补丁以及不断添加软件版本,客户将腾出更多时间用在网络特性和新平台的研究上,缩短潜在的升级评估和测试时间。使用被动方法来解决问题的供应商看似优势多多,但总抵不过不出现任何问题吧?

人为因素

据调查,人为错误对网络故障中断负有50-80%的责任。但在复杂的系统环境中,出现人为错误的原因往往不是能力欠缺。包含多个组件并涉及到多类互动活动的复杂系统创建了复杂的环境,在此,组件之间的微妙关系往往不为人知。

人为错误不是导致出现问题的直接原因,而是环境复杂性的征兆。因此,我们得出这样的结论:降低和管理网络复杂性将对网络故障中断时间产生最为巨大的影响。将人为错误减少20%可将网络故障中断总时间缩短10-16%,是减少系统错误的2-3倍,是缩短检修时间的8-15倍。

是责备犯错人还是从错误中吸取经验教训?

避免人为错误的传统方法以责备和惩罚为主。这种方法的重点是找出犯错人并评估后果,认为错误是人员不合格、判断失误或决策错误导致的意外事件,要是没有人类活动参与其中,系统就是安全的。这种战术基于对犯错人进行严责,让他们感到深深的挫败感,鼓励人们隐藏自己的错误而不是从错误中吸取经验教训。

现在的新方法趋向于检测、纠正和防止错误,重点关注具体发生的事件、如何在将来防止它重复发生,以及在第一时间找到导致出现错误的系统组件(这一点最重要)。这种方法认为管理复杂的系统是一门需要持续改进的艺术,人类活动对于实现这种改进至关重要,错误常是一系列活动的综合作用结果。本着持续改进的态度,这种方法鼓励人们识别错误,积累经验。

手动输入复杂的配置命令是网络中出现人为错误的最常见的原因。即便是资深工程师,也难免会将防火墙放置在错误的接口上(如他们用于与路由器进行通信的接口)、在过滤器列表中输入错误的IP地址、或者在配置业务时犯下语法错误或丢失自变量。具体的操作指南和仔细的检查可避免某些问题,但会减慢响应速度。紧急情况下,压力和频繁的中断将会大幅度提高出错几率。

网络供应商一直让他们的客户自己纠正人为错误,只提供基本的培训和知识库来帮助客户管理错误。瞻博网络始终高度重视JUNOS软件中的人为错误,力求简化并自动实施容易出现人为错误的主要程序。通过近期的创新成果,瞻博网络将自动化功能应用到了大量的脚本编制工具中,以便进一步解决造成网络故障中断的人为因素。

系统的持续运行和自动运行

系统持续运行的工程基础扎根于最早期的设计阶段及开发原则,属于事后无法改进的特性。模块化软件、开放的接口、独立流程及受保护的资源都是前提要求。瞻博网络从一开始就致力于采用这种方法。经过9年的持续改进和增强,瞻博网络的开发成果不断壮大,已经能够通过定制方法来减少网络问题的数量、降低严重性并缩短持续时间。

持续的系统运行

瞻博网络的网络平台和JUNOS软件素以持续的性能和运行稳定性著称,这要归功于单一操作系统、严格的单一版本开发流程以及严格分割每个程序的模块化软件架构。

JUNOS—严格的开发流程

JUNOS恪守严格的开发流程,从一开始便执行单一版本模式。新版本不允许忽视以前版本的特性,并且必须做到不存在任何重大的回归错误。自JUNOS软件9年前面市以来,瞻博网络一直在按期提供新版本,从未出现过延期现象。这种方法的优势在于稳定的模块和一致地实施每个特性,不仅能够减少意外系统事件,而且还能减少计划内检修和升级活动的次数并缩短时间。JUNOS版本测试流程更为全面,可将所有的资源和历史经验统统应用到一个代码中。JUNOS的客户能够充满自信地规划网络升级,只需很少的资源。当然,在出现问题时,我们会竭尽全力解决问题,但JUNOS软件拥有公认的稳定性,很少出错。

JUNOS软件采用单一版本模式,每年定期推出4个新版本。如想升级软件,客户只需为基于JUNOS的所有平台选择并输入更高版本的编号即可。由于每个版本中都提供全部的指定平台特性,因此,如想向网络中添加新服务,客户只需打开所需特性即可。

JUNOS软件的单一版本模式

图2:JUNOS软件的单一版本模式

JUNOS—模块化架构

JUNOS软件的程序运行在受保护的独立内存空间中,您在停止运行或重启程序模块时不会影响其他系统组件。内存溢流是单片软件架构的常见问题,导致产品频繁中断,JUNOS软件不允许模块之间意外重写,进而能够防止出现此类问题。

模块化架构能够为路由和数据包转发引擎的核心网络功能提供进一步的保护。它允许路由和数据包转发引擎使用自己的专用资源,彼此不受影响。如果辅助程序消耗过多的CPU,系统将给制止,不运行核心功能的继续运行。同样,当遇到分布式拒绝服务(DDoS)攻击等事件时,控制板和命令行接口(CLI)也可继续运行,可用于故障排除,进而将问题解决。

模块化架构和单一版本模式可减少人为错误的发生几率,保护基本功能并减少操作人员对产品的操作次数。此外,简化和自动化运行还能进一步减少人为错误。

人为因素与电信运营商

美国联邦通信委员会(FCC)开展的调查显示,对于电信运营商来说,人为或程序因素是导致网络故障中断的最严重的、增长速度最快的原因。鉴于大多数网络设备供应商对这个领域长期置之不理,而是去关心硬件稳定性和软件质量,因此,出现这种情况不足为奇。

JUNOScript Automation为电信运营商解决这个问题提供了宝贵工具,允许供应商远离特定命令来实施配置变化,从而降低出现语法错误的风险,并允许他们从脚本中而不是书面上捕获运行程序,从而利用整个公司的专业技术资源。早期警告脚本可帮助电信运营商加快故障排除速度、缩短修复周期并提高客户满意度。总的来说,JUNOScript Automation不仅能够帮助电信运营商降低运行成本,而且还能帮助他们提高服务可用性。

自动运行

网络产品的复杂性和广泛性意味着即便企业实施单一供应商战略,通常也会从多个供应商处购买网络设备。即便产品购自同一家公司,如果是不同的系列,也会经常因为不同的开发原则或收购活动而使用不同的命令行接口和操作系统。因此,企业越来越难以简化并自动化复杂网络的运行。

瞻博网络坚持在其网络平台上推行并部署开放标准和接口,旨在简化这些多厂商网络的管理和运行工作。例如,将XML(可扩展的标记语言)用作产品配置和状态信息交付接口。这种结构化的文档格式能够跨越不同产品提供一致接口,并简化与接口互动的应用开发工作。

XML在这个环境中能够提供多个重要优势。XML是被广泛部署的开放标准,具有连接多类不同应用的潜力。这个格式允许用户跨越不同产品对配置文件和脚本进行轻松比较。全新的JUNOScript Automation功能帮助瞻博网络进一步增强了对XML格式和接口的广泛部署。

提前捕获错误

网络系统越来越复杂,意味着配置错误成为网络故障中断的主要原因。随着网络在带宽使用和覆盖范围方面快速增长,重复错误的影响将更加严重。您最好能够在人为错误实际发生之前对其实施先行处理。JUNOS平台上的配置命令使用两阶段流程。首先对备用配置而不是主用配置实施变化,以便逐渐积累配置变化然后在完成后提交它们。管理员可审核变化建议、验证语法,并修改或丢弃任何不理想的变化,不会对运行中的软件产生影响。此外,JUNOS软件中的自动检查功能能够验证句法并检查冲突,将潜在问题通知给用户。

最令人恼火的人为错误莫过于运行团队完全可以设法避免的重复错误。JUNOS工具包中最新添加了提交脚本,用于最大限度地缩短故障中断时间。这些脚本通过可定制性增强

了原有工具,允许在激活配置之前对其先行实施问题检测。您可通过提交脚本解析配置文件以便在激活配置文件之前检查错误和遗漏。公司资深网络工程师还开发并维护脚本库,用于确保配置满足业务和网络策略的要求。

通过提交脚本捕获错误

下面举例说明JUNOS提交脚本能够捕获的潜在错误:

基本状态测试:确保不会意外删除编辑接口和编辑协议。

一致性检查:确保您在编辑层配置的每个T1接口同时也在编辑协议层得到配置。

接口密度:确保不在信道化接口上配置过多的通道。

链路扩展:确保SONET/SDH接口的MTU规模永远不会低于某个值,如4千字节。

输入策略检查:确保IGP不使用输入整个路由表的输入策略。

交叉协议检查:确保基于LDP的所有接口都配置用于内部网关协议(IGP),或者确保基于IGP的所有接口都配置用于LDP。

除发送警告消息或拒绝提交活动外,脚本还能修改或扩展配置。您可将所需的一组基本变量扩展到整个复杂配置中,从而确保跨越多个产品提供一致性。所有这些功能都使用XML文件和命令格式,因此具备开放性及可扩展性,能够与客户及第三方应用互操作。

在脚本运行之后、验证好的配置被激活之前,JUNOS软件将拷贝正在运行的配置,并将其保存在能够容纳50个先前配置的档案中。JUNOS软件还提供可选的确认工具。开启后,路由器要求在新配置被激活后的特定时段内运行确认命令。如果路由器没有接到确认消息,将自动重新激活以前的配置。管理员也可通过回退命令手动重新激活档案中保存的任何配置,快速恢复到最初工作状态。

抢先发现轻微错误,防止它们演变成重大错误错误的层叠效应是复杂系统的主要特征之一。小问题可快速演变成重大问题。因此,JUNOS运行脚本允许网络工程师自动实施早期警告系统,以便检测出新问题,采取适当措施来避免问题激化,并使系统快速恢复正常运行,而不是坐等小问题演变成大问题,触发警报并向网络操作人员发出通知。

运行脚本与提交脚本使用相同的软件机制,但由系统日志事件触发,不是由配置提交事件触发。运行脚本也可定期运行,对状态指示器、网络连接和其他状态指示器进行检查。当脚本检测出CPU利用率过高或者存在被丢弃的虚拟专网(VPN)连接等潜在问题时,将会采取一系列措施,如发送通知、检查其他状态指示器以及关闭低优先级程序等,甚至能够更改路由器配置。运行脚本也可填充特定的MIB变量,允许它们与SNMP管理系统协作,从而对特定产品实施粒度更细的监控,而不是在整个系统上使用通用的阈值。

JUNOS脚本中包含由不同的事件策略所驱动的大量潜在条件。If-then-else构造允许它们摆脱简单的被动响应机制,被特定条件触发后,脚本将对其他的状态指示器和变量进行评估、向操作人员发送高级通知、甚至采取适当行动。这些早期警报使网络操作人员能够更自信地诊断和解决新出现的问题,从而帮助缩短网络故障中断时间。

最大限度地延长运行时间

JUNOScript Automation提供灵活的脚本编制功能,允许客户通过配置的定制验证、故障排除以及特定条件的自动响应机制来提高网络运行效率。这项功能允许用户诊断网络故障中断的原因并据此编制脚本,以防此类故障再次出现或者在逐渐缩短故障持续时间,从而做到持续改进。

JUNOS工具包中的这些新工具如何影响网络故障中断?随着脚本库的构建以及在组织内外部的共享,网络故障中断将得到大幅度改进。与此同时,Lake Partners Strategy Consultants近期开展的调查也揭示了避免网络故障中断的某些潜在因素。

Lake Partners采访了122名客户,旨在了解他们在网络中部署的产品类型、所用的操作系统以及具体的网络运行行为。调查发现,路由器对网络运行时间的作用最大,但存在较大差异,具体取决于操作系统。

下面,我们来具体介绍Lake Partner调查中涉及到的运行任务。监控网络状态和产品参数的操作约占总体操作时间的20%。据回答人报告,运行JUNOS软件的网络产品所需的监控时间比其他软件短25%。构建运行脚本能够进一步自动执行重复的监控任务,从而进一步减少监控活动。

据回答人称,故障排除操作的时间占所有核心路由操作的21%。据调查,JUNOS软件的一致性和模块性能够将故障排除时间和意外事件的发生频率降低54%。早期警告脚本以

及对已知事件的一致响应(如CPU使用高峰或VPN故障)能够进一步缩短故障排除时间,并降低意外事件的发生几率。

参加调查人员还报告说,与其他软件相比,在网络设备上运行JUNOS软件将意外事件的频率平均降低了24%,并将故障持续时间平均缩短了30%。用于配置变化和轻松回退到原有配置状态的提交程序功不可没。JUNOS脚本的增强功能可进一步减少意外事件的频率并缩短故障持续时间。提交脚本能够根据网络策略验证配置变化并且跨越多个产品将一系列关键输入一致地扩展到复杂的配置命令中,从而大幅度减少因人为错误导致的意外事件的数量。

JUNOS软件对意外事件的频率和持续时间的影响

表1:JUNOS软件对意外事件的频率和持续时间的影响(Lake Partners, 2007)

“JUNOS的模块性确实能够起到帮助作用……瞻博网络允许系统持续运行,不受操作的影响。”

——Lake Partners培训部IT总监《操作系统如何提高网络效率》,2007年。

总结

网络的覆盖范围和速度都在不断提升,从而扩大了网络故障中断的影响。鉴于人为因素是导致网络故障中断的主要原因,因此,从人为错误中吸取经验教训并提高复杂网络的管理能力将有助于大幅度提高网络可用性。

JUNOS软件采用模块化设计并遵循严格的开发流程,为您持续改进系统方法,在复杂的网络中考虑人为因素奠定坚实基础。最新的JUNOScript Automation功能便是在这个基础上构建的。企业和电信运营商可利用资深员工捕获信息,并通过对以前的故障实施根源分析来开发脚本,用于降低故障的重复发生率。早期警告脚本能够及早捕获轻微问题,以防它们演变成严重问题,并使网络操作人员能够有更充裕的时间通过更多的选项来响应问题,从而有效降低网络故障中断的发生频率并缩短持续时间。企业和电信运营商可利用这些经验的积累来编制脚本库,从而自动检测并解决问题。缩短网络的监控和故障排除时间允许企业和电信运营商将更多时间用在有助于提高竞争力的战略性创新活动上。

随着企业将不断积累的网络经验转变成脚本,他们将能够与其他企业交换知识或者利用其他企业积累的专用或通用脚本库。网络操作人员将不再受限于公司内部知识,而是能够利用更广泛的大社区来获取优势。基于JUNOS平台的网络将迎来网络运行时间的持续改进周期,满足高绩效企业对高性能网络的需求。

【编辑推荐】

  1. 专题:网络访问中断大排查
  2. 网络故障诊断和排除
【责任编辑:许凤丽 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

热门职位+更多

读 书 +更多

JAVA并发编程实践

本书既能够成为读者的理论支持,又可以作为构建可靠的、可伸缩的、可维护的并发程序的技术支持。本书并不仅仅提供并发API的清单及其机制,...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊
× Phthon,最神奇好玩的编程语言