SPC 장애 보고서

RDS 네트워크 장애 — Incident Review & Upgrade Policy

SEV-1 SPC-INC-2026-001

Samsung Private Cloud · 2026년 2월

📋 Agenda

Part I — 장애 분석

Executive Summary
시스템 구성 & 장애 개요
타임라인
Root Cause & 5 Whys
감지 및 대응 평가
Action Items

Part II — Upgrade Policy

OS별 자동 업그레이드 비교
AWS 서비스 업그레이드 정책
Shared Responsibility Model
보안 CVE 대응 사례
업계 Best Practice
SPC Upgrade Policy 제안
Next Steps

Part I

장애 분석

1. Executive Summary

항목	내용
Incident ID	SPC-INC-2026-001
Severity	SEV-1
총 장애 시간	1시간 30분
영향 범위	RDS 서비스 전체 — 사용자 DB 접근 불가
Root Cause	Ubuntu 자동 업그레이드 → systemd-networkd 재시작 → 커스텀 route 초기화
현재 상태	서비스 복구 완료 · 재발 방지 진행 중

SPC: Samsung Private Cloud · RDS: Relational Database Service · SEV-1: Severity 1 (최고 심각도) · DB: Database

2. 시스템 구성 & 장애 개요

RDS Managed VM 아키텍처

RDS는 Managed VM 형태로 배포
RDS팀이 VM 수명주기 관리
SPC 내부 통신용 커스텀 route 필요

⚠️ route가 /etc/rc.local 부팅 스크립트에만 의존
→ persistent config 미사용 → 서비스 재시작 시 유실

장애 흐름 (5단계)

1Ubuntu unattended-upgrades 실행

2systemd-networkd 자동 재시작

3커스텀 route 전체 초기화

4RDS ↔ SPC 내부 통신 실패

5사용자 DB 접근 불가 (1.5h)

VM: Virtual Machine · systemd-networkd: Linux 네트워크 관리 데몬 · unattended-upgrades: Ubuntu 자동 패키지 업그레이드 도구 · route: 네트워크 경로 설정

3. 타임라인

T+0Ubuntu unattended-upgrades 실행 → systemd-networkd 업그레이드

T+0⚡ systemd-networkd 재시작 → 커스텀 route 초기화

T+?⚡ RDS ↔ SPC 내부 통신 실패 시작

T+?사용자 RDS 접근 불가 리포트 접수

T+?장애 인지 및 대응 시작

T+?네트워크 route 초기화 원인 파악

T+?커스텀 route 수동 재적용

T+90m✅ 서비스 정상화 확인

※ 정확한 시간은 dpkg.log, systemd journal에서 확인 필요 [TBD]

TBD: To Be Determined (추후 확정) · dpkg.log: Debian 패키지 설치 로그 · systemd journal: Linux 시스템 로그

4. Root Cause Analysis

직접 원인

unattended-upgrades → systemd-networkd 업그레이드
→ 서비스 재시작 → 런타임 route 유실

근본 원인

Production OS 자동 업그레이드 미통제
네트워크 설정 persistent config 미사용
SPC SW 업그레이드 거버넌스 부재

5 Whys

1	RDS 접근 실패	내부 route 유실
2	route 유실	networkd 재시작 시 런타임 route 초기화
3	networkd 재시작	unattended-upgrades 자동 업그레이드
4	자동 업그레이드 활성	Production OS 정책 미수립
5	정책 부재	SPC SW 업그레이드 거버넌스 미정립

RCA: Root Cause Analysis (근본 원인 분석) · 5 Whys: 반복적 "왜?" 질문으로 근본 원인 도달하는 기법 · SW: Software · OS: Operating System

5. 감지 및 대응 평가

감지 (Detection)
감지 방법	사용자 리포트 (자동 아님)
감지 시스템	해당 없음
Gap	Route 변경/유실 모니터링 부재

대응 (Response)
복구 소요	1시간 30분
Escalation	개선 필요

✅ What Went Well
• 원인 파악 후 route 수동 복구 성공
• 데이터 손실 없음

❌ What Went Wrong
• 자동 업그레이드 미인지
• 장애 전파 지연
• 사용자 리포트 의존 감지

Escalation: 상위 조직/담당자에게 장애 보고를 전달하는 절차

6. Action Items

#	Action Item	Type	Owner
1	SPC SW Upgrade Policy 수립	process	[TBD]
2	환경별(Dev/Staging/Prod) 업그레이드 프로세스	process	[TBD]
3	모든 Prod RDS VM `unattended-upgrades` 비활성화	prevent	RDS팀
4	커스텀 route → persistent config 전환	prevent	RDS팀
5	Route 변경/유실 모니터링 구축	detect	SPC Ops
6	VM 이미지 빌드 표준 (자동 업그레이드 비활성화)	prevent	RDS팀
7	Escalation 프로세스 정의	process	SPC Ops
8	SPC Ops 정기 미팅 체계 수립	process	[TBD]
9	모든 Prod VM 자동 업그레이드 일괄 점검	prevent	SPC Ops
10	Prod 패키지 변경 중앙 로깅 + 알림	detect	SPC Ops

Prod: Production (운영 환경) · Ops: Operations (운영팀) · CR: Change Request (변경 요청)

Part II

Upgrade Policy

OS, AWS 사례, 업계 Best Practice 기반

7. OS별 자동 업그레이드 기본 정책

항목	Ubuntu 22/24	Debian 11/12	Rocky 8/9	CentOS Stream
도구	`unattended-upgrades`	`unattended-upgrades`	`dnf-automatic`	`dnf-automatic`
Cloud Image 기본	설치+활성화	설치됨, 상이	미설치	미설치
보안 패치 자동	✅ 매일	⚠️ 설정 의존	❌	❌
서비스 재시작	✅ 가능	⚠️ 설정 의존	N/A	N/A
Production 위험도	🔴 높음	🟡 중간	🟢 낮음	🟢 낮음

핵심: Ubuntu만 유일하게 Cloud Image에서 자동 업그레이드 기본 활성화.
systemd-networkd, openssh-server 등 핵심 패키지도 예고 없이 업그레이드/재시작 가능 — 이번 장애의 직접 원인

RHEL: Red Hat Enterprise Linux · Rocky: RHEL 호환 커뮤니티 배포판 · CentOS: Community ENTerprise OS · dnf-automatic: RHEL 계열 자동 업데이트 도구

8. AWS Managed Service 업그레이드 정책

항목	EKS	RDS	ElastiCache	KMS	ELB
고객 제어	✅ 버전 선택	✅ 타이밍/버전	✅ 타이밍	✅ 로테이션	❌ 완전 관리
MW	❌	✅ 주 30분	✅ 주 1회	❌	❌
자동 업그레이드	⚠️ EOL시	⚠️ Auto Minor	⚠️ 보안 강제	✅ 자동	✅ 투명
강제 업그레이드	✅ Extended 만료	✅ EOL	✅ 보안 필수	❌	✅
사전 통보	60일+	MW 전	1주 전	EventBridge	없음
롤백	❌ 불가	⚠️ 스냅샷	❌	❌	N/A

EKS: Elastic Kubernetes Service · RDS: Relational Database Service · KMS: Key Management Service · ELB: Elastic Load Balancer · MW: Maintenance Window (정기 유지보수 시간) · EOL: End of Life (지원 종료)

8. AWS EKS & RDS 상세

EKS 버전 수명주기

Standard
14개월 → Extended
+12개월 → 강제
업그레이드

Control Plane: AWS 관리, 고객이 시점 결정
Worker Node: 고객 책임
K8s 다운그레이드 불가

RDS 업그레이드 정책

Major	수동 only	수분~수십분
Minor	Auto 옵션	수분
OS 패치	MW 필수	수분

AWS RDS: OS 패치를 AWS가 MW에서 관리
SPC RDS: 이 역할이 누구에게도 미할당 ← 장애 원인

K8s: Kubernetes · MW: Maintenance Window (정기 유지보수 시간) · AMI: Amazon Machine Image · Control Plane: K8s 클러스터 관리 컴포넌트

9. Shared Responsibility — AWS vs SPC

AWS

        AWS 책임:

        • RDS OS 패치 (MW 자동)

        • ElastiCache 노드 패치

        • EKS Control Plane

        • ELB 완전 투명 관리

        고객 책임:

        • EC2 Guest OS 패치

        • Application 코드

        • EKS Worker Node

SPC — 이번 장애 핵심

AWS에서 "AWS 책임"인 영역이
SPC에서는 각 서비스팀 책임

❌ RDS VM OS 패치 → 책임 미정의
❌ 자동 업그레이드 통제 → 정책 부재
❌ MW 기반 패치 → 미구현

→ 이 Gap이 장애의 근본 원인

EC2: Elastic Compute Cloud (AWS 가상 서버) · Guest OS: VM 내부 운영체제 · MW: Maintenance Window

10. 보안 CVE 대응 실제 사례

사례	CVE	CVSS	대상	AWS 대응	소요
Log4Shell 2021.12	CVE-2021-44228	10.0	Apache Log4j	자체 Hot Patch 개발 전 서비스 배포	8일
OpenSSL RCE 2026.01	CVE-2025-15467	9.8	OpenSSL 3.0~3.6	ALAS 패치 릴리스 (AL2023)	9일
RediShell 2025.10	CVE-2025-49844	Critical	Redis/Valkey 전 버전	ElastiCache Service Update	Self-Service → 강제
OpenSSL Punycode 2022.11	CVE-2022-3602	High	OpenSSL 3.0	"영향 없음" Bulletin 발행	즉시

    교훈: Log4Shell — 핫 패치(즉시 완화) → 영구 패치(라이브러리 교체) 2단계 전략  | 
    "영향 없음"도 반드시 공지 (고객 불안 해소)
  

CVE: Common Vulnerabilities and Exposures (공개 취약점 식별자) · CVSS: Common Vulnerability Scoring System (취약점 심각도 점수, 0~10) · RCE: Remote Code Execution (원격 코드 실행) · ALAS: Amazon Linux Security Advisory · WAF: Web Application Firewall · ACL: Access Control List

10. Case Study — Log4Shell 상세 대응

AWS 대응 전략

자체 Java Hot Patch 개발 — Log4j 업데이트 없이 JNDI 차단
오픈소스 공개: corretto/hotpatch-for-apache-log4j2
모든 AWS 서비스에 핫 패치 우선 배포 → 이후 라이브러리 업데이트
Security Bulletin V1~V6 총 6회 업데이트 (투명한 진행 공유)

대응 타임라인

12/09CVE-2021-44228 공개

12/10AWS 긴급 대응 시작 (V1 bulletin)

12/11오픈소스 핫 패치 공개

12/13EKS/ECS/Fargate 핫 패치 배포

12/14CVE-2021-45046 추가 공개

12/17✅ 전 서비스 패치 완료 (V6 final)

서비스별 대응

서비스	대응	고객 조치
RDS / Aurora	AWS 직접 패치	불필요
EKS / ECS	핫 패치 DaemonSet	Opt-in
EMR	가이드 제공	직접 패치
ElastiCache	영향 없음	불필요
Connect	AWS 패치	Lambda만 별도

SPC 시사점:
• 핫 패치 메커니즘 사전 준비 필요
• Multi-layer: 핫 패치(즉시) → 영구 패치(MW)
• CVSS 10.0급 → 8일 이내 전체 완료 목표

JNDI: Java Naming and Directory Interface · DaemonSet: K8s 모든 노드에 배포되는 Pod · Opt-in: 고객이 직접 활성화 · EMR: Elastic MapReduce

10. Case Study — OpenSSL RCE (CVE-2025-15467)

취약점 상세

OpenSSL CMS 모듈 — AEAD(AES-GCM) IV 길이 검증 누락
16바이트 고정 스택 버퍼에 오버사이즈 IV 복사 → Stack Buffer Overflow
Pre-Auth 단계 — 인증 키 불필요, 원격 RCE 가능
AISLE(AI 기반 탐지 조직)이 12개 zero-day 동시 발견
Red Hat/Ubuntu: Stack Canary + ASLR로 RCE→DoS 완화

영향 범위

취약 버전	패치 버전
OpenSSL 3.6.0	3.6.1
OpenSSL 3.5.0~3.5.4	3.5.5
OpenSSL 3.4.0~3.4.3	3.4.4
OpenSSL 3.0.0~3.0.18	3.0.19

OpenSSL 1.1.1, 1.0.2는 영향 없음

AWS 대응 타임라인

12/14AISLE → OpenSSL 보안팀 취약점 보고

01/27OpenSSL 패치 버전 공개

01/27AWS ALAS CVE 페이지 게시

02/05Amazon Linux 2023 패치 (공개 후 9일)

        Amazon Linux 2: OpenSSL 1.1.1 사용 → 영향 없음

        Managed Service: AWS가 내부적으로 투명 패치

        EC2: 고객 책임 — AMI 업데이트 또는 SSM Patch Manager

SPC 시사점:
• CVE 공개→패치까지 9일 → SPC도 7일 SLA
• 레거시 버전이 반드시 취약하진 않음 (정확한 버전 파악 중요)
• VM별 OpenSSL 버전 인벤토리 필수

AISLE: AI 기반 취약점 탐지 조직 · ASLR: Address Space Layout Randomization · Stack Canary: 스택 오버플로 감지 기법 · SSM: Systems Manager · AMI: Amazon Machine Image

10. Case Study — RediShell (CVE-2025-49844)

취약점 상세

Use-After-Free → Redis Lua 인터프리터 샌드박스 탈출
악성 Lua 스크립트 → 호스트 OS 접근 가능 → Full RCE
발견: Wiz Research
영향: Redis 전 버전 + Valkey (Redis 포크)

영향 범위

플랫폼	영향
Redis OSS 전 버전	취약
Valkey	취약
AWS ElastiCache	취약
GCP Memorystore	취약
Azure Cache for Redis	취약

AWS ElastiCache 대응

        Service Update 배포:

        • Self-Service Update로 즉시 적용 권장

        • Auto-Update after Due Date = Yes

        • 기한 초과 시 MW에서 강제 적용

SPC 시사점:
• "캐시니까 보안 덜 중요"는 잘못된 인식
• Managed Cache도 Critical RCE 대상
• Self-Service + 강제 적용 모델 → SPC 동일 메커니즘 필요
• 오픈소스 포크(Valkey) 사용 시 업스트림 패치 추적 필수

Use-After-Free: 해제된 메모리 재참조 취약점 · Lua: 경량 스크립트 언어 (Redis 내장) · Valkey: Redis 오픈소스 포크 (Linux Foundation) · GCP: Google Cloud Platform

10. AWS Systems Manager Patch Manager

패치 관리 아키텍처

1Patch Baseline — 어떤 패치를 적용할지

2Patch Group — 어떤 인스턴스에 (태그 기반)

3Maintenance Window — 언제 적용할지

4RunPatchBaseline — 어떻게 적용 (SSM Document)

5Compliance Report — 결과 확인

적용 방식 비교

방식	Mutable (In-Place)	Immutable (AMI)
방법	실행 중 인스턴스에 직접	새 AMI → 인스턴스 교체
롤백	어려움	이전 AMI로 즉시
적합	빠른 보안 패치	OS 업그레이드

Patch Baseline 구성

항목	설명
Product	OS 선택 (AL2, Ubuntu, RHEL)
Classification	Security, Bugfix, Recommended
Severity	Critical, Important, Medium, Low
Auto-Approval	릴리스 후 N일 후 자동 승인
Rejected	특정 패키지 제외 (예: 커널)

SPC 적용:
• AWS Patch Manager와 유사한 중앙 패치 관리 시스템 필요
• Patch Baseline + MW + Compliance Report 3단 구조
• SPC 현재: 이 모든 것이 부재 ← 장애 근본 원인

SSM: AWS Systems Manager · AL2: Amazon Linux 2 · RHEL: Red Hat Enterprise Linux · Compliance Report: 패치 적용 현황 보고서

10. CVE 모니터링 체계

모니터링 소스

소스	대상	주기
NVD (NIST)	전체 CVE	실시간
Ubuntu USN	Ubuntu 패키지	실시간
Red Hat Security	RHEL/Rocky	실시간
Amazon ALAS	Amazon Linux	실시간
GitHub Advisory	오픈소스 라이브러리	실시간
CISA KEV	실제 악용 중 취약점	실시간
K8s Security	Kubernetes	실시간
Redis/Valkey	Cache 엔진	실시간

SPC Security Bulletin 프로세스

1CVE 공개 / 취약점 인지

2영향도 평가 (SPC 서비스 분석)

3Security Bulletin V1 발행

4패치 개발/테스트

5Bulletin 업데이트 (V2, V3...)

6전 서비스 패치 완료 (Final)

        "영향 없음"도 반드시 공지

        AWS CVE-2022-3602 사례 — 영향 없어도 Security Bulletin 발행하여 고객 불안 해소

NVD: National Vulnerability Database · USN: Ubuntu Security Notice · KEV: Known Exploited Vulnerabilities · K8s: Kubernetes

11. NIST SP 800-40 Rev.4 — 패치 관리 핵심 원칙

6대 핵심 권고사항

원칙	설명	SPC 적용
패치는 투자	"비즈니스 비용"이 아닌 미션 달성 필수 요소로 프레이밍	VP 보고 시 이 관점 강조
위험 기반 우선순위	모든 패치를 동일 긴급도로 처리하지 않고 위험 기반 분류	Emergency/Critical/Standard/Planned 4단계
운영화	일회성이 아닌 지속적 운영 프로세스	정기 MW + CAB 체계
자산 인벤토리	"패치 대상을 모르면 패치할 수 없음"	SPC 전체 VM/컨테이너 인벤토리
자동화	수동 패치는 확장 불가능	SSM Patch Manager 유사 시스템
측정	패치 적용률, 소요 시간 등 메트릭 추적	월별 Compliance Report

NIST 권장 패치 분류

1Critical + 활발히 악용 중 → 즉시 (48시간)

2Critical + 악용 미확인 → 7일 이내

3Important → 30일 이내

4Moderate/Low → 90일 이내

        핵심: NIST는 패치를 "예방 유지보수(Preventive Maintenance)"로 정의 — 사후 대응이 아닌 사전 예방
      

NIST: National Institute of Standards and Technology · SP 800-40r4: 2022년 4월 발행 · MW: Maintenance Window · SSM: Systems Manager · 출처: csrc.nist.gov/pubs/sp/800/40/r4/final

11. 규제 프레임워크 상세

CISA BOD 22-01 — KEV

미국 연방 기관 의무, 민간 기업에도 권장
KEV 카탈로그 등재 = 최우선 패치
기준: ① CVE ID ② 실제 악용 확인 ③ 명확한 조치 방법
기한: CVE별 개별 지정 (보통 2~3주)

PCI DSS v4.0 — Req. 6.3.3

        결제 데이터 처리 시스템 대상

        Critical/High 패치: 30일 이내 설치 필수

        문서화된 패치 관리 프로세스 필수

        자체 위험 등급 분류 프로세스(6.3.1) 기반

FedRAMP — 인터넷 노출 vs 내부

심각도	인터넷 노출	내부 리소스
Credibly Exploitable	3일	21일
Critical	30일	30일
High	60일	60일
Moderate	90일	90일
Low	180일	180일

ISO 27001:2022 — Annex A 8.8

        구체적 패치 기한 미명시 — 자체 정의 SLA 준수 여부 감사

        감사 포커스: "Remediation Gap" (식별→패치 시간 + 문서화)

        권장: Critical 7일, High 30일, Medium 60일, Low 90일

CISA: Cybersecurity and Infrastructure Security Agency · BOD: Binding Operational Directive · KEV: Known Exploited Vulnerabilities · PCI DSS: Payment Card Industry Data Security Standard · FedRAMP: Federal Risk and Authorization Management Program · ISO: International Organization for Standardization

11. 업계 패치 기한 비교 (규제 프레임워크)

심각도	NIST 800-40	CISA KEV	PCI DSS	FedRAMP	ISO 27001	SPC 채택
Actively Exploited	48시간	개별 (2~3주)	—	3일	—	48시간
Critical (9.0+)	7일	—	30일	30일	7일	7일
High (7.0~8.9)	30일	—	30일	60일	30일	14일
Medium	90일	—	—	90일	60일	30일
Low	90일+	—	—	180일	90일	분기

NIST: National Institute of Standards and Technology · CISA KEV: Cybersecurity and Infrastructure Security Agency Known Exploited Vulnerabilities · PCI DSS: Payment Card Industry Data Security Standard · FedRAMP: Federal Risk and Authorization Management Program · SLA: Service Level Agreement

11. Google Release Engineering 5원칙

릴리스 엔지니어링 원칙

#	원칙	설명
1	Reproducible Builds	동일 입력 → 동일 결과
2	Automated Builds	코드 체크인 → 자동 빌드
3	Automated Tests	빌드 후 자동 테스트
4	Automated Deployments	사람이 아닌 컴퓨터가 배포
5	Small Deployments	작고 독립적인 변경 단위

Google SRE 경험칙:
"대다수의 장애는 바이너리 또는 설정 변경에 의해 촉발된다"
— Google SRE Workbook, Postmortem Analysis

Canary Release 원칙

모든 변경은 Canary 통과 필수 — 바이너리, 설정, 인프라 모두
자동화된 평가 — 사람이 아닌 시스템이 건강 상태 판단
점진적 확대: 소규모 → 1개 리전 → 다중 리전 → 전체
빠른 롤백: 이상 감지 시 자동 롤백
SLO 기반 판단: Error Budget 소진 속도로 pass/fail 결정

SPC 적용:
• 모든 Production 변경(패치 포함)에 Canary 도입
• SLO/Error Budget 기반 자동 롤백
• Infrastructure Change도 Code Change와 동일 검증

SRE: Site Reliability Engineering · SLO: Service Level Objective · Error Budget: SLO 대비 허용 장애 비율 · 출처: sre.google/workbook/canarying-releases/ · sre.google/sre-book/release-engineering/

11. Microsoft Azure Safe Deployment (SDP) 상세

Progressive Exposure (점진적 노출)

0내부 테스트 (Dogfood) — 검증 + Bake Time

1소규모 외부 (1~5%) — 검증 + Bake Time

2중규모 (5~20%) — 검증 + Bake Time

3대규모 (20~50%) — 검증 + Bake Time

4전체 (100%)

SDP 핵심 요소

요소	설명
Deployment Rings	위험 허용도에 따라 사용자/인프라를 링으로 분류
Feature Flags	배포와 기능 활성화를 분리 — 코드 배포 후 기능 숨김 가능
Bake Time	각 단계 후 안정성 관찰 기간
Health Signals	각 단계에서 자동 건강 상태 모니터링
Auto Rollback	건강 신호 악화 시 자동 롤백

긴급 패치(Hotfix) 시 SDP 조정:
• 승인 단계 가속 · Smoke/통합 테스트 가속
• Bake Time 단축 (제거는 아님!)
• 품질 게이트는 가속하되 건너뛰지 않음

SDP: Safe Deployment Practices · Dogfood: 자사 서비스를 내부에서 먼저 사용하는 관행 · Bake Time: 배포 후 안정성 관찰 기간 · 출처: learn.microsoft.com/en-us/devops/operate/safe-deployment-practices

11. Netflix — Spinnaker + Kayenta 자동 Canary 분석

배포 파이프라인

1새 AMI 빌드 (Immutable Infrastructure)

2Canary 인스턴스 소규모 배포

3Kayenta가 메트릭 자동 분석 (CPU, Latency, Error Rate)

4Pass → 점진적 롤아웃 / Fail → 자동 롤백

5전체 배포 완료

        Kayenta: Netflix + Google 공동 개발

        Canary vs Baseline 인스턴스의 통계적 비교로 pass/fail 자동 결정

        사람의 주관적 판단 제거

핵심 설계 원칙

원칙	설명
Immutable Infra	VM을 패치하지 않고 새로 만들어 교체
Automated Analysis	사람이 아닌 시스템이 배포 품질 판단
Multiple Iterations	1회가 아닌 여러 번 반복 → 신뢰도 향상
Manual Override	자동 판단 불확실 시에만 사람 개입

SPC 적용:
• Core 컴포넌트 업데이트 시 자동 Canary 분석 도입 검토
• Immutable: VM 이미지 패치 → 새 이미지 교체 (in-place 대비 안전)

Kayenta: 오픈소스 자동 Canary 분석 도구 · Spinnaker: Netflix 개발 CD 플랫폼 · AMI: Amazon Machine Image · 출처: netflixtechblog.com · cloud.google.com/blog

11. 기업별 배포 전략 비교

🔵 Google SRE

        Canary Release

        • SLO/Error Budget 기반 자동 판단

        • 1% → 리전 → 전체

        • 이상 시 자동 롤백

        • "대다수 장애는 변경에 의해 촉발"

🟢 Microsoft Azure

        Safe Deployment (SDP)

        • Deployment Rings

        • Ring 0(내부) → 1(5%) → 전체

        • Bake Time 필수

        • 긴급 시에도 게이트 유지

🔴 Netflix

        Spinnaker + Kayenta

        • Immutable Infrastructure

        • 자동 통계 분석 Canary

        • Pass/Fail 자동 판정

        • AMI 교체 (in-place 패치 X)

공통 원칙: Progressive Exposure (점진적 노출) · Automated Rollback (자동 롤백) · Bake Time (안정화 관찰)

SRE: Site Reliability Engineering · SDP: Safe Deployment Practices · SLO: Service Level Objective · Canary: 소규모 트래픽으로 먼저 검증하는 배포 방식 · AMI: Amazon Machine Image

11. 배포 전략 비교

전략	다운타임	롤백 속도	리소스 비용	복잡도	적합 대상
Rolling Update	최소	중간	낮음	낮음	K8s Deployment, ECS
Blue/Green	없음	즉시	2배	중간	DB 메이저 업그레이드
Canary	없음	즉시	+10~20%	높음	Core, 고위험 변경
Feature Flag	없음	즉시	없음	중간	기능 배포 분리
Immutable (AMI)	최소	즉시	일시적 2배	중간	OS 패치, 보안 업데이트

    SPC 권장: Core 컴포넌트 → Canary · DB 업그레이드 → Blue/Green · 정기 패치 → Immutable (AMI) · 기능 배포 → Feature Flag
  

Blue/Green: 두 환경을 전환하는 배포 방식 · Feature Flag: 배포와 기능 활성화를 분리 · Immutable: 기존 서버 수정 대신 새 이미지로 교체

11. 업계 Best Practice 체크리스트

#	Best Practice	Google	MS	Netflix	NIST	SPC
1	자산 인벤토리 (패치 대상 파악)	✅	✅	✅	✅	필수
2	자동화된 패치 배포	✅	✅	✅	✅	필수
3	Canary/Progressive 배포	✅	✅	✅	권장	필수
4	자동 롤백	✅	✅	✅	—	필수
5	Bake Time (안정화 관찰)	✅	✅	✅	—	필수
6	Immutable Infrastructure	✅	권장	✅	—	권장
7	SLO/Error Budget 기반 판단	✅	—	✅	—	권장
8	문서화된 패치 프로세스	✅	✅	✅	✅	필수
9	패치 적용률 메트릭	✅	✅	✅	✅	필수
10	Change Freeze Period	✅	✅	✅	—	필수

MS: Microsoft · SLO: Service Level Objective · Error Budget: SLO 대비 허용 가능한 장애 시간 비율 · Bake Time: 배포 후 안정성 관찰 기간

11. ITIL 4 변경 관리 & CAB

변경 유형	설명	승인	SPC 사례
Standard	사전 승인된 저위험	자동 승인	Patch Baseline 내 보안 패치
Normal	일반 변경	CAB 승인	OS/엔진 메이저 업그레이드
Emergency	긴급 변경	ECAB 즉시	Critical CVE 긴급 패치

CAB vs ECAB 상세 비교

항목	CAB	ECAB
소집	정기 (주/월)	비정기 (즉시)
참석	전 파트장	최소 인원 (해당 팀 + Ops Lead)
문서	CR 사전 작성	사후 작성 가능
승인	합의 기반	최소 2인 승인
사례	MW 내 정기 패치	CVE 긴급, 서비스 장애

현대적 CAB 운영 (ITIL 4 + DevOps)

Standard Changes 확대 → 저위험은 CAB 불필요, 자동 승인
일반 변경 → Peer Review (모든 것을 CAB에 올리지 않음)
CAB는 고위험 변경만 — 메이저 업그레이드, 아키텍처 변경
비동기 승인 — Slack/Jira (회의 필수 아님)
CI/CD 파이프라인 테스트가 사실상의 품질 게이트

ITIL: Information Technology Infrastructure Library · CAB: Change Advisory Board · ECAB: Emergency CAB · CR: Change Request · Ops Lead: 운영 리드 · 출처: atlassian.com/itsm/change-management/change-advisory-board

11. Change Freeze (변경 금지 기간)

업계 사례

기업/산업	Freeze 기간	사유
대형 이커머스	블랙프라이데이 전후 2주	매출 피크 보호
금융권	결산기 (분기/연말) 1주	재무 시스템 안정성
게임	대규모 이벤트 전후	사용자 경험 보호
Google	공식 Freeze 없음	SLO 기반 → Error Budget 소진 시 자동 제한

SPC Change Freeze 정책 제안

기간	유형	허용 변경
명절 (설/추석)	Hard Freeze	Emergency만
대규모 사내 이벤트	Soft Freeze	Standard + Emergency
분기 말	Soft Freeze	Standard + Emergency
일반 기간	Normal	모든 유형

        원칙: Emergency 보안 패치는 어떤 Freeze에서도 허용 — 보안 위험이 안정성 위험보다 큼
      

Hard Freeze: Emergency 외 모든 변경 금지 · Soft Freeze: Standard(사전 승인) + Emergency만 허용 · SLO: Service Level Objective

12. SPC Upgrade Policy 제안

환경별 승격 경로

Development
자율 → Staging
CR + 팀 리드 → Production
CAB + MW

환경	자동 업그레이드	승인
Development	✅ 허용	불필요
Staging	⚠️ 보안만, 재시작 패키지 제외	CR + 팀 리드
Production	❌ 전면 금지	CAB + MW 내 수행

CAB: Change Advisory Board · MW: Maintenance Window · CR: Change Request

12. 업그레이드 긴급도 분류

분류	정의	Prod 적용	승인	AWS/업계 참고
Emergency	활발히 악용 중 CVE	48시간	ECAB	Log4Shell 8일, FedRAMP 3일
Critical	CVSS ≥ 9.0	7일	CAB	NIST 7일, PCI DSS 30일
Standard	보안 패치, 버그 수정	정기 MW	CAB	RDS MW 자동 적용
Planned	메이저 버전 업그레이드	분기	CAB+VP	EKS K8s 버전 업그레이드

    배포 전략: Canary 10% → 30% → 100% 단계적 롤아웃 · 롤백 계획 필수 · Bake Time 관찰
  

ECAB: Emergency Change Advisory Board · CVSS: Common Vulnerability Scoring System · VP: Vice President · MW: Maintenance Window

12. 긴급 대응 — 핫 패치 & Security Bulletin

핫 패치 2단계 전략

1단계: 핫 패치 (48시간)
취약점 악용 즉시 차단
WAF 규칙, Network ACL, 설정 변경
서비스 재시작 최소화

2단계: 영구 패치 (7일)
취약 패키지 업데이트
Staging 검증 → MW 적용
롤백 계획 포함

SPC Security Bulletin

단계	시점	내용
V1	인지 후 4h	영향도 평가, 고객 조치
V2	핫 패치 시	완화 조치, 적용 방법
V3+	영구 패치	패치 가용, 적용 일정
Final	완료	전 서비스 패치 확인

"영향 없음"도 반드시 공지 (AWS CVE-2022-3602 사례)

WAF: Web Application Firewall · ACL: Access Control List · MW: Maintenance Window · EventBridge: AWS 이벤트 라우팅 서비스

12. 정기 미팅 체계

미팅	주기	참석자	안건
SPC Ops Weekly	주 1회	각 파트장	운영 현안, 장애 리뷰, Action Items
CAB Meeting	월 1회 (MW 전)	CAB 멤버	변경 요청 리뷰 및 승인
Quarterly Review	분기 1회	VP + 파트장	업그레이드 현황, 정책, EOL 로드맵

    VP 피드백 반영:

    "SPC 개발 파트장님들은 정기적인 미팅을 통해서 주요 현안을 지속적으로 논의하고 팔로우업 해 주시길 바랍니다."

VP: Vice President · CAB: Change Advisory Board · MW: Maintenance Window · EOL: End of Life (지원 종료)

Lessons Learned

Ubuntu Cloud Image는 자동 업그레이드 기본 활성화 — RHEL 계열과 다름, 명시적 비활성화 필수
Production 모든 자동 변경은 "default deny"
인프라 설정은 persistent/declarative 방식 — 런타임 스크립트 의존 금지
Managed Service 팀 ↔ Platform 팀 간 책임 경계 명확화 — AWS Shared Responsibility 참고
장애 감지는 자동 모니터링 선행 — 사용자 리포트 의존 탈피
업계 표준(NIST/CISA/PCI) 기반 패치 SLA 수립
Progressive Deployment (Canary/Rings) — Google, Microsoft, Netflix 공통 원칙

13. Next Steps

✅ Postmortem 미팅 — 장애 후 5영업일 이내

✅ Action Items Jira 티켓 생성

✅ SW Upgrade Policy 초안 → SPC Ops Meeting 리뷰

✅ Prod VM 자동 업그레이드 일괄 점검 (즉시)

✅ 30일 후 Action Items 완료 여부 점검

SPC-INC-2026-001 | Samsung Private Cloud
37+ References | NIST · CISA · PCI DSS · FedRAMP · ISO 27001 · Google SRE · Microsoft SDP · Netflix