行业

利用实时 BGP 监控改善流量工程

作者 Kemal Sanjta
| | 3 阅读时长

本文还提供以下语言版本: United States (English), Germany (Deutsch), Mexico (Español), Spain (Español), France (Français), Italy (Italiano), Japan (日本語), Korea (한국어) & Brazil (Português).

摘要

流量工程在优化网络性能方面发挥着不可或缺的作用。ThousandEyes 解决方案凭借近乎实时的 BGP 监控和告警、流量路径可视化和问题检测功能,为您提供对 BGP 控制和数据平面的宝贵洞察,助力改善流量工程过程。


进行流量工程的主要原因

流量工程在保障网络高效且可靠地运行方面发挥着至关重要的作用,是网络工程师和网络运维人员的一项重要职责。虽然执行流量工程的频率可能会因企业或职务而异,但是鉴于企业网络和互联网的状况瞬息万变,这项任务一直是一项基本且常见的工作。

流量工程的主要目标之一是提高网络性能。网络工程师需要不断尽力优化路由,确保使用最有效的路径传输流量。这种对性能的苛刻追求不仅是一项技术任务,也是为了践行改善客户体验的承诺。无论哪个行业,都是如此。

不过有时候,流量工程也可能是出于与性能无关的目的。例如,某个内部团队为了满足合同义务或使用替代传输服务提供商更经济的网络路径来传输流量,而请求进行相关更改。

无论工作人员的经验如何,流量工程都是一项颇具挑战性的任务,涉及许多需要网络运维人员仔细考虑的运维问题。此外,一些运营或架构场景可能会对流量工程的执行结果产生不利的影响。诸如拓扑变化、偶发事件和意外的配置变化等等,都是需要注意的问题。毕竟,因流量工程而导致的重大网络中断事件屡见不鲜。

尽管我们在 BGP 最佳路径算法及其决策过程方面有着广泛的专业知识,并且在 AS_PATH 预置、BGP 社区和本地优先级调整方面拥有丰富的经验,但也会遇到意外情况。超出我们管理控制范围的变化或者我们自身环境内部的变化,都有可能对流量工程的结果产生预期之外的影响。

在遇到此类事件时,我们会进行根本原因分析并回答"“五个为什么”,以便从中学习宝贵的经验。"通常,我们会根据这些经验来更新我们的程序方法 (MOP) 文档,添加相关的验证步骤。

鉴于流量工程固有的复杂性,网络工程师和运维人员在执行流量工程时必须慎之又慎,不仅需要对路由和转发表进行全面验证,还必须通过控制面板持续监控关键指标并使用第三方工具进行核验。

借助 BGP 流量工程技术促进卓越运营

在 ThousandEyes,我们以向网络专业人员提供高质量“信号”而感到自豪。我们近乎实时的BGP 监控和告警功能可以为网络运维提供有力支持,让工程师能够及时验证流量工程的更改结果。我们拥有对入口和出口流量的全面监控能力,可以从 BGP 控制平面和数据平面两个视角提供洞察,为您消除网络监控中的死角。

在下面的示例中,我们通过创建一个测试来展示网络专业人员如何利用 ThousandEyes 自行验证 BGP 流量工程的效果。整个过程中的所有操作都在一个平台中完成,完全无需在互联网上搜索 Looking Glass 工具(实际用来运行测试并在合理时间内返回结果的工具)。如此出色的实用性可以有效节省您的时间和精力,让您专注于真正重要的事情。还需要指出的是,ThousandEyes 能够同时提供来自控制平面和数据平面的近实时反馈。其中,数据平面是指客户流量和生产流量的路由环境。

下图 1 显示的是一系列 Agent-to-Agent(Agent 到 Agent)测试,这些测试以可视化方式展示了 AS 210312 中的 Agent "te-research-00" 与 Oracle 的法兰克福云 (AS 31898) 中部署的某一 Agent 之间的双向路径。Agent-to-Agent(Agent 到 Agent)测试可以为正向和逆向路径可视化提供宝贵信息。鉴于 互联网具有非对称性,如果能拥有对逆向路径的可视性,不仅能给工作带来极大帮助,也有助于实现有效的根本原因分析。

Agent-to-Agent(Agent 到 Agent)测试同时实现了正向和逆向路径的可视化
图 1. Agent-to-Agent(Agent 到 Agent)测试同时实现了正向和逆向路径的可视化

ThousandEyes 测试所使用的 TCP 流量是通过传输生产流量或客户流量的同一数据平面进行路由的。因此,ThousandEyes 观察到的任何事件(例如延迟剧增或丢包)都有可能影响您的生产流量或客户流量。

BGP Route Visualization(BGP 路由可视化)可基于全球部署的数百个 BGP 监控器展示前缀传播情况,以可视化方式展示可访问性、路径变化和更新等指标。

回到上面的示例。可以看到,ThousandEyes 主动检测到 Agent "te-research-00" 的 IP 地址是 193.5.19.0/24 前缀的一部分,继而开始对相关 BGP 指标进行监控,如图 2 所示。

BGP 路由可视化可基于数百个精心部署的 BGP 监控器展示前缀传播情况
图 2. BGP 路由可视化可基于数百个精心部署的 BGP 监控器展示前缀传播情况

对入口流量工程进行可视化

继续前面的例子。网络运维团队在入口点执行的流量工程对进入网络的流量造成了影响。执行流量工程的方法有很多,最常用的方法是使用传输服务提供商提供的前缀汇聚/拆分、AS_PATH 预置和 BGP 社区。

通过观察图 3 的时间线可以看到,网络运维团队在 7 月 24 日凌晨 5:07(美国中部时间)使用 BGP 社区对入口流量主动执行了流量工程更改,目标是将 AS 25091 从路径中移除。而后,我们成功地通过 AS 34549 重新为流量建立了路由。红色虚线表示路由被撤销;红色实线表示在执行入口流量工程之后,流量所使用的路径。

BGP 路由可视化显示入口流量工程效果
图 3. BGP 路由可视化显示入口流量工程效果

在 ThousandEyes 的“BGP Path Changes”(BGP 路径更改)视图中,用户可以通过以下方法查看详细的时间戳信息:导航到左侧的某个 BGP 监控器,然后选择“View details of path changes”(查看路径更改详情)选项。

查看路径更改详情
图 4. 查看路径更改详情

如图 4 所示,在凌晨 5:07:19(美国中部时间),BGP 监控器 England-68 观察到路径发生更改。新路径不再包含 AS 25091,而是包含 AS 34549。

如果导航到“Agent-to-Agent”(Agent 到 Agent)视图,就能看到逆向路径中的 IP 地址发生了改变,但基于网络的分组表明 AS 25091 已完全从路径中移除,具体如图 5 和图 6 所示。

路径可视化表明,流量工程更改前,路径中包含 AS 25091
图 5. 路径可视化表明,流量工程更改前,路径中包含 AS 25091

路径可视化表明,流量工程更改后,AS 25091 已从路径中移除
图 6. 路径可视化表明,流量工程更改后,AS 25091 已从路径中移除

有了近乎实时的 BGP 监控和告警,我们就能信心十足地验证流量工程更改的效果。在 ThousandEyes 中,我们可以通过两项强大的功能轻松做到这一点:BGP 路由可视化(控制平面视角)和路径可视化(数据平面视角)。

对出口流量工程进行可视化

ThousandEyes 还能展示出口流量工程的影响。调整本地优先级是流量工程的常用策略之一。但本地优先级与其他 BGP 属性有一个很大的不同点,那就是不会传递。这意味着本地优先级既不会与其他对等体共享,也无法在 eBGP 源中查看。所以,在这种情况下,我们必须依赖 ThousandEyes 提供的数据平面可视性和洞察。

如下面的图 7 所示,只需导航到“Agent to Agent”(Agent 到 Agent)视图,然后查看并检查 2024 年 7 月 24 日早上 7:34(美国中部时间)的路径可视化详情,即可看到流量在数据平面的路由情况。这个时间是网络运维团队决定改变路径的 1 分钟之前。

正向路径的路径可视化信息表明,流量通过 Oracle AS 31898 进行直连对等路由
图 7. 正向路径的路径可视化信息表明,流量通过 Oracle AS 31898 进行直连对等路由

沿时间线查看数据平面路径十分重要,因为这有助于清晰地了解任何更改在实施前、实施中和实施后流量的活动情况,就像图 8 显示的那样。

基于网络的接口分组明确表明,流量是通过直连对等路由传输的
图 8. 基于网络的接口分组明确表明,流量是通过直连对等路由传输的

在 1 分钟后的早上 7:35(美国中部时间),网络运维团队执行了出口流量工程,使路径发生了显著变化。导致的结果是,源自 AS 210312 的流量在到达 Oracle 的 AS 31898 之前被路由至 AS 8298(转发路由),具体如图 9 和图 10 所示。

路径可视化清晰显示了不同的转发路径
图 9. 路径可视化清晰显示了不同的转发路径

基于网络的接口分组清晰表明转发路径的变化情况
图 10. 基于网络的接口分组清晰表明转发路径的变化情况

为什么这种可视性至关重要?

卓越运营是每一家企业和每一名员工共同追求的目标。但是随着网络环境的复杂性日益增加,实现卓越运营也变得难上加难。一旦出现差错,就会面临巨大风险。流量工程实施不当常会导致网络中断或路由泄漏,而且往往会给企业带来声誉和金钱上的损失。

长期以来,网络工程从业者只能依赖一些不太理想的工具,承受着巨大的负担。这些工具(例如互联网上提供的各种 Looking Glass 工具和基于控制平面数据的解决方案)通常无法帮助我们明确了解流量工程的效果、网络运行状况等重要信息。

ThousandEyes 填补了这一空缺。凭借近乎实时的 BGP 监控和告警功能,我们可以为您提供前所未有的可视性,让您以世界各地数百个精心部署的监控器为视角,清晰地了解前缀传播情况。有了 ThousandEyes 的可视性,您在使用路由表检查网络运行情况时,就能从世界各地的多个观测点接近实时地掌握流量工程的效果。您甚至能一次查看数百个 Looking Glass 的结果,从而更可靠、更快捷、更有效地开展工作。

我们所能做到的还不止如此,路径可视化是我们的另一利器。它能帮助您从数据平面的视角,明确出站流量工程的效果(就像我们展示的示例那样)。而这个数据平面,就是您的生产流量和客户流量的路由环境。通过这种方式,我们可以让您以可视化方式掌握正向和逆向路径的流量工程效果。

您是不是经常需要联系对等连接提供商对逆向路径执行 MTR,才能发现问题出在何处?整个过程需要多长时间?我们就有过这样的经历,所以我们深知,我们都需要更好的解决方案。

在最近的产品改进中,我们为 ThousandEyes 增加了接近实时的 BGP 监控和告警。这项新功能与路径可视化和 ThousandEyes 一贯的高质量信号相结合,让我们终于拥有了这样的解决方案(甚至远超预期)。


立即开始免费试用或访问我们的分享链接了解更多信息,亲眼见证这些改进。


Upgrade your browser to view our website properly.

Please download the latest version of Chrome, Firefox or Microsoft Edge.

More detail