트래픽 엔지니어링이 필요한 여러 가지 이유
트래픽 엔지니어링은 모든 네트워크 엔지니어와 운영자의 중요한 책임이며, 효율적이고 신뢰성 있는 네트워크 성능을 유지 관리하는 데 중요한 역할을 합니다. 이 작업의 빈도는 회사나 특정 역할에 따라 달라질 수 있지만 네트워크와 인터넷 전반의 상황이 시시각각으로 변하고 있어서 여전히 일반적이고 필수적인 작업으로 남아 있습니다.
트래픽 엔지니어링의 기본 목표 중 하나는 성능을 개선하는 것입니다. 네트워크 엔지니어는 트래픽이 가장 효율적인 경로를 통과할 수 있도록 라우팅을 최적화하기 위해 끊임없이 노력하고 있습니다. 이 끊임없는 성능 추구는 단순히 기술적인 노력이 아니라 업종을 불문하고 고객 경험을 개선하려는 노력입니다.
그러나 트래픽 엔지니어링이 성능과 관련이 없는 요인에 의해 주도되는 경우도 있습니다. 예를 들어 피어링 팀은 계약 의무를 준수하거나 다른 트랜짓 제공업체를 통해 보다 저렴한 네트워킹 경로로 트래픽을 푸시하기 위해 변경을 요청할 수 있습니다.
경험에 관계없이 당면한 작업은 어려운 작업입니다. 네트워크 운영자가 고려해야 하는 수많은 운영 과제가 있습니다. 다양한 운영 또는 아키텍처 관련 시나리오는 트래픽 엔지니어링 시도의 결과에 부정적인 영향을 미칠 수 있습니다. 토폴로지의 변경, 일회성 시나리오, 예기치 않은 설정 변경 등이 있습니다. 결국 여러 가지 심각한 중단 문제는 트래픽 엔지니어링이 잘못되어 발생했습니다.
BGP 최적 경로 선택 알고리즘 관련 전문성과 의사 결정 프로세스, AS_PATH 앞에 추가, BGP 커뮤니티 및 로컬 기본 설정 조작에 관한 광범위한 경험에도 불구하고 예기치 않은 이벤트가 발생합니다. 관리 제어 범위를 벗어난 변경이나 환경 내 변경으로 인해 예기치 않게 트래픽 엔지니어링 노력이 중단될 수 있습니다.
이러한 이벤트가 발생하면 근본 원인 분석과 같은 프로세스와 "5가지 이유에 대한 답변을 통해 소중한 교훈을 얻게 됩니다." 이러한 교훈을 통해 추가 확인 단계를 포함하도록 MOP(Method of Procedure) 문서를 업데이트하는 경우가 종종 있습니다.
트래픽 엔지니어링의 복잡한 특성을 고려하여 네트워크 엔지니어와 운영자는 신중하게 접근해야 합니다. 여기에는 라우팅 및 전달 테이블의 철저한 확인, 대시보드를 통한 중요 메트릭의 지속적인 모니터링, 검증을 위한 서드파티 도구 사용 등이 포함됩니다.
BGP 트래픽 엔지니어링으로 운영 효율성 향상
ThousandEyes에서는 자부심을 가지고 네트워크 전문가에게 고품질의 신호를 제공하고 있습니다. ThousandEyes의 실시간에 가까운 BGP 모니터링 및 알림 기능은 운영을 지원하여 엔지니어가 트래픽 엔지니어링 변경 사항을 즉시 확인할 수 있게 합니다. ThousandEyes는 인그레스 및 이그레스 트래픽 모두에 대해 포괄적인 모니터링 기능을 제공하므로 BGP 제어 플레인과 데이터 플레인 관점에서 모두 인사이트를 제공하여 네트워크의 모든 측면이 모니터링되도록 보장합니다.
다음 예에서는 네트워킹 전문가가 ThousandEyes를 활용하여 BGP 트래픽 모니터링의 효과를 확인하는 방법을 보여주는 테스트를 생성합니다. 모든 작업이 단일 플랫폼 내에서 수행되므로 실제로 작동하고 합당한 시간 내에 결과를 반환하는 “거울”과 같은 기능을 인터넷에서 찾을 필요가 없습니다. 이러한 실용성으로 인해 시간과 노력을 절약하여 중요한 사안에 집중할 수 있습니다. 게다가 ThousandEyes는 제어 플레인뿐만 아니라 데이터 플레인에서도 실시간에 가까운 피드백을 제공합니다. 이때 고객 및 프로덕션 트래픽은 동일한 데이터 플레인을 통해 라우팅됩니다.
아래 그림 1에 표시된 것과 같이 에이전트 간 테스트는 AS 210312의 "te-research-00" 에이전트와 프랑크푸르트의 Oracle 클라우드 AS 31898에 구축된 에이전트 간의 양방향 경로 시각화를 보여줍니다. 에이전트 간 테스트는 정방향 경로와 역방향 경로를 모두 시각화하는 데 매우 중요합니다. 인터넷의 비대칭 특성을 고려할 때 역방향 경로에 대한 가시성은 현저한 차이를 만들어 내고 효율적인 근본 원인 분석을 수행하는 능력을 향상시킵니다.

ThousandEyes 테스트에 사용된 TCP 트래픽은 프로덕션 또는 고객 트래픽과 동일한 데이터 플레인을 통해 라우팅됩니다. 따라서 지연 시간 급증 또는 패킷 손실과 같이 ThousandEyes에서 관찰된 이벤트는 프로덕션 또는 고객 트래픽에도 영향을 미쳤을 가능성이 있습니다.
BGP 경로 시각화는 전 세계에 구축된 수백 개의 BGP 모니터 관점에서 접두사 전파를 보여줍니다. BGP 경로 시각화는 연결 가능성, 경로 변경 및 업데이트와 같은 메트릭을 시각화합니다.
예를 계속 진행하면, 그림 2에 표시된 것과 같이 ThousandEyes가 "te-research-00" 에이전트에 193.5.19.0/24 접두사의 일부인 IP 주소가 있다는 것을 사전에 탐지하고 관련 BGP 메트릭의 모니터링을 시작했다는 것을 알 수 있습니다.

인그레스 트래픽 엔지니어링 시각화
이전 예에 따라 네트워크 운영 팀은 네트워크로 들어가는 트래픽에 영향을 주도록 인그레스 트래픽 엔지니어링을 수행했습니다. 여러 가지 방법으로 이를 수행할 수 있지만 가장 일반적으로 사용되는 방법으로는 접두사 어그리게이션/디어그리게이션, AS_PATH 앞에 추가, 트랜짓 제공업체에서 제공하는 BGP 커뮤니티가 있습니다.
그림 3의 타임라인에서 볼 수 있듯이 7월 24일 05:07(CST)에 네트워크 운영 팀은 BGP 커뮤니티를 사용하여 인그레스 트래픽에 대한 트래픽 엔지니어링 변경 작업을 사전에 수행했습니다. 목표는 경로에서 AS 25091을 제거하는 것이었으며, AS 34549를 통해 성공적으로 트래픽 경로를 변경했습니다. 철회는 빨간색 줄무늬 선으로 시각화되어 있고, 빨간색 실선은 인그레스 트래픽 엔지니어링 이후 트래픽이 이동한 경로를 나타냅니다.

“BGP 경로 변경” 보기에서 사용자는 ThousandEyes를 통해 왼쪽의 BGP 모니터 중 하나로 이동하고 “경로 변경 세부 정보 보기” 옵션을 선택하여 자세한 타임스탬프를 확인할 수 있습니다.

그림 4에 표시된 것과 같이 05:07:19(CST)에 BGP 모니터 England-68은 AS 25091이 더 이상 포함되지 않는 경로 변경을 관찰했습니다. 대신 경로에 AS 34549가 포함되었습니다.
“에이전트 간” 보기로 이동하면 IP 주소가 역방향으로 변경된 것을 확인할 수 있지만, 그림 5와 그림 6에 표시된 것과 같이 네트워크 기반 그룹화는 AS 25091이 경로에서 완전히 제거되었음을 보여줍니다.


실시간에 가까운 BGP 모니터링 및 알림을 통해 트래픽 엔지니어링 변경의 효과를 확실하게 확인할 수 있습니다. ThousandEyes를 사용하면 BGP 경로 시각화를 사용하여 제어 플레인 관점에서, 그리고 경로 시각화를 사용하여 데이터 플레인에서, 모두 이 작업을 직접 수행할 수 있습니다.
이그레스 트래픽 엔지니어링 시각화
ThousandEyes는 언제든지 이그레스 트래픽 엔지니어링의 영향을 보여줄 수 있는 역량을 갖추고 있습니다. 트래픽 엔지니어링에서 자주 사용되는 전략은 로컬 기본 설정 조정입니다. 다른 BGP 속성과 달리 로컬 기본 설정은 전이적이지 않습니다. 즉, 다른 피어와 공유되지 않으며 eBGP 피드에서 볼 수 없습니다. 따라서 이러한 시나리오에서 데이터 플레인 가시성 및 인사이트를 사용해야 합니다.
아래 그림 7에 표시된 것과 같이 “에이전트 간” 보기로 이동하여 2024년 7월 24일 07:34(CST)의 경로 시각화를 살펴보면 네트워크 운영 팀이 경로 변경을 결정하기 1분 전에 트래픽이 데이터 플레인에서 어떻게 라우팅되었는지 확인할 수 있습니다.

타임라인에서 데이터 플레인 경로를 확인하는 것은 그림 8에 표시된 것과 같이 변경이 구현되기 이전, 도중, 이후의 트래픽 플로우를 명확하게 파악할 수 있기 때문에 가장 중요합니다.

1분 후 07:35(CST)에 네트워크 운영 팀은 이그레스 트래픽 엔지니어링을 적용하여 경로를 크게 변경했습니다. 그 결과 트래픽은 그림 9와 그림 10에 표시된 것처럼 Oracle의 AS 31898에 도달하기 전에 원본 AS 210312에서 AS 8298(트랜짓)로 라우팅되었습니다.


중요한 이유
우리는 모두 운영 효율성을 달성하고자 합니다. 하지만 점점 복잡해지는 환경에서 운영 효율성 달성은 어려운 과제로 느껴질 수 있습니다. 위험성도 높습니다. 부정적인 트래픽 엔지니어링 결과로 인해 중단 및 경로 유출 문제가 발생하는 경우가 많으며, 종종 조직의 평판과 금전적 손실을 초래하기도 합니다.
너무 오랫동안 네트워크 엔지니어링 커뮤니티는 최적화되지 않은 도구에 의존해야 하는 부담이 있었습니다. 인터넷 전반에 흩어져 있는 “거울” 및 제어 플레인 데이터를 사용하는 솔루션과 같은 도구는 트래픽 엔지니어링의 효과와 네트워크의 상태에 대해 확신할 수 없게 만들었습니다.
ThousandEyes가 이 격차를 해소합니다. 실시간에 가까운 BGP 모니터링 및 알림을 통해 ThousandEyes는 전 세계에 전략적으로 구축된 수백 개의 모니터 관점에서 접두사 전파에 대한 전례 없는 가시성을 제공합니다. 오늘날 라우팅 테이블 관점에서 어떻게 보이는지 확인하고 있을 때 ThousandEyes는 전 세계의 여러 밴티지 포인트에서 거의 즉각적으로 트래픽 엔지니어링의 효과를 파악할 수 있는 가시성을 제공합니다. 수백 개의 거울을 통해 한 번에 더 안정적으로 더 빠르게 효과를 확인할 수 있으며 보기에도 좋습니다.
여기서 멈추지 않습니다. 위의 예에서 볼 수 있듯이 경로 시각화를 사용하여 이그레스 트래픽 엔지니어링의 효과를 보여줄 뿐만 아니라 데이터 플레인 관점에서도 보여줍니다. 프로덕션 및 고객 트래픽이 동일한 데이터 플레인을 통해 라우팅됩니다. 이 경우 정방향 및 역방향 모두로 효과를 시각화합니다.
피어링 파트너에게 전화를 걸어 역방향 경로에서 MTR을 실행하고 문제가 있다는 사실을 확인한 경우가 몇 번이나 있으셨나요? 시간은 얼마나 소요되었나요? 우리 모두 같은 경험이 있고, 모두 더 나은 서비스를 받을 자격이 있습니다.
실시간에 가까운 BGP 모니터링 및 알림을 포함한 최근 제품 개선 사항과 함께 경로 시각화의 모든 이점, ThousandEyes의 유명한 고품질 신호를 비롯해 ThousandEyes의 최근 제품 개선 사항을 통해 마침내 훨씬 더 좋은 결과를 이루었습니다.