본문 바로가기

* DevSecOps/Operations

(12)
[Post-Mortem] 2025년 11월 18일 Cloudflare 글로벌 장애 대응 일지: 우리는 무엇을 배웠나 1. 들어가며2025년 11월 18일 저녁, 전 세계 수많은 인터넷 서비스를 마비시킨 Cloudflare의 글로벌 네트워크 장애가 발생했습니다. 우리 서비스 역시 예외는 아니었습니다.이 글은 긴박했던 장애 상황에서 우리 팀이 어떻게 문제를 인지하고 대응했는지, 특히 모바일과 PC 환경에서 나타난 상이한 증상을 어떻게 분석했는지를 기록합니다. 또한, 향후 유사한 '외부 인프라 장애(Outage)'에 대비하기 위해 수립한 구체적인 개선 계획을 공유하여, 같은 고민을 하는 엔지니어링 팀들에게 도움이 되고자 합니다.2. 장애 개요 (Incident Overview)원인 (Root Cause)Cloudflare의 사후 분석에 따르면, 이번 장애의 핵심 원인은 Bot Management 기능에 있었습니다."Bot ..
AWS에서 안전한 데이터베이스 접근 게이트웨이 구축하기: NLB + Security Group 완벽 가이드 데이터베이스 접근 관리 솔루션을 AWS에 배포하면서 Network Load Balancer와 Security Group을 활용한 Zero Trust 아키텍처를 구축한 경험을 공유합니다. Terraform으로 완전 자동화하고, 보안과 가용성을 모두 확보했습니다.🎯 배경: 왜 데이터베이스 접근 게이트웨이가 필요한가?많은 기업에서 여러 팀이 수십 개의 데이터베이스를 사용합니다:RDS MySQL/PostgreSQL 클러스터ElastiCache RedisDocumentDB (MongoDB 호환)EKS 클러스터 내부 데이터베이스문제점:개발자마다 각자 DB 접속 정보 관리퇴사자 계정 관리의 어려움접속 이력 추적 불가프로덕션 DB에 대한 직접 접근보안 감사의 어려움해결책: 중앙화된 데이터베이스 접근 게이트웨이 구축?..
Karpenter v1.5.3 노드 통합으로 인한 대규모 장애 분석 및 해결기 Karpenter v1.5.3의 공격적인 노드 통합 정책과 PodDisruptionBudget 미설정으로 인해 프로덕션 환경에서 20개 이상의 Pod가 동시에 재시작되며 약 10분간 서비스 장애가 발생했습니다. 이 글에서는 장애의 근본 원인 분석부터 해결 방안까지 상세히 다룹니다.🚨 사건의 시작2025년 10월 2일 오후 3시 43분, 갑자기 모니터링 대시보드에 빨간 불이 들어왔습니다.[CRITICAL] API Gateway health-check failedHTTPConnectionPool(host='10.20.112.175', port=80):Max retries exceeded with url: /actuator/health/livenessConnection refused처음에는 단순한 배포나 설..
이메일 발송 신뢰도 높이기: SendGrid SPF, DKIM, DMARC 설정 완벽 가이드 이메일은 비즈니스 커뮤니케이션의 핵심 도구이지만, 스팸 메일함으로 직행하거나 아예 차단되는 경우만큼 답답한 일도 없습니다. 고객에게 중요한 정보가 담긴 메일이 제대로 전달되지 않는다면 비즈니스에 큰 타격을 줄 수 있습니다. 이러한 문제를 해결하고 이메일 발송 신뢰도를 높이는 열쇠는 바로 SPF, DKIM, DMARC와 같은 이메일 인증 기술에 있습니다.이번 글에서는 이메일 발송 서비스로 널리 사용되는 SendGrid, Google을 기준으로, 마치 전문가처럼 SPF, DKIM, DMARC를 설정하여 이메일 전달률을 극대화하는 방법을 단계별로 알아보겠습니다.🎯 0단계: 이메일 보안 설정, 왜 필요하고 무엇을 준비해야 할까요?스팸 메일과 피싱 공격이 날로 정교해지면서, 주요 이메일 서비스 제공업체(Gmai..
Amazon Bedrock으로 Slack 기반 AIOps 챗봇 만들기: AWS 보안 아키텍처 제안부터 장애 해결까지! 🚀 최근 IT 운영(AIOps) 분야에서 Generative AI의 활용은 더욱 활발해지고 있습니다. 특히 Slack과 같은 협업 플랫폼과의 통합은 업무 생산성을 크게 향상시키죠. 이번 포스팅에서는 Amazon Bedrock과 AWS CDK를 이용해 AIOps 챗봇을 구축하는 과정을 상세히 소개합니다. 특히, 초기에 자주 겪는 권한 관련 문제를 해결하는 방법부터, Slack에서 다양한 방식으로 챗봇과 상호작용하는 방법까지 함께 알아보겠습니다! 💬✨ 📌 Slack 기반 AIOps 챗봇 아키텍처 및 주요 구성요소 🛠️Slack과 Amazon Bedrock을 이용해 구축한 AIOps 챗봇의 전체 아키텍처는 다음과 같습니다. 이를 통해 사용자 질문 처리, 장애 분석, 로그 요약 등의 기능을 효율적으로 처리할 ..
Datadog Watchdog,로그 관리, Contents Pack으로 완성하는 AIOps 🐶 효과적인 IT 운영 관리에서 핵심은 이상 징후를 빠르게 탐지하고 신속하게 대응하는 것입니다. 🚨Datadog은 이를 위한 강력한 AI 엔진인 Watchdog과 효율적인 로그 관리 기능을 제공하여 AIOps를 실현할 수 있도록 지원합니다.이 포스팅에서는 Datadog의 Watchdog 주요 기능과 로그 관리 효율화 방법 그리고 Flex Logs를 활용한 로그 관리 전략까지 종합적으로 정리해 드립니다. ✨📌 1. Datadog Watchdog란?Watchdog는 Datadog의 AI 기반 이상 탐지 엔진으로, 메트릭, 로그, APM 데이터를 지속적으로 분석하여 이상 현상을 자동으로 탐지하고 알려줍니다.Watchdog의 대표적인 기능은 다음과 같습니다.🚩 경고 자동 감지 및 모니터링📉 Impact An..
회사 규모에 따른 보안 전략 정보보안의 주요 목표정보보안은 기밀성, 무결성, 가용성을 유지하여 데이터를 보호하는 기술과 정책이다.데이터가 존재하는 이상 반드시 보안이 필요하며, 이는 정보의 중요성과 가치 때문임을 의미한다.클라우드 보안은 클라우드 환경에서 데이터·애플리케이션·인프라를 보호하는 정책 및 기술이다.클라우드는 물리적 통제가 어렵고, 인터넷 기반이므로 특화된 보안 전략이 요구된다.클라우드 환경을 정확히 이해해야만 효과적 보안이 가능하다는 철학(클라우드를 알아야 보안을 한다)이 중요하다.✅ CISO(정보보호최고책임자)의 주요 역할 및 보안 인증 대응 전략🚩 1. CISO의 주요 역할구분세부 내용전략 수립기업의 정보보안 전략 수립 및 로드맵 제시리스크 관리보안 위험 식별, 평가, 관리 체계 구축 및 운영정책 수립정보보안 정책..
온프레미스 vs 가상머신 가상화 vs 클라우드 1. 온프레미스(IDC) vs 클라우드 데이터 센터(CDC)전통적인 온프레미스(일반 데이터 센터)는 기업이 직접 구축한 시설에서 다양한 플랫폼(메인프레임, 유닉스, 윈도우)을 운영합니다. 반면, 클라우드 데이터 센터는 설비 설치와 유지보수 부담 없이 IT 비즈니스에 집중할 수 있도록 지원합니다.구분일반 데이터 센터(IDC)클라우드 데이터 센터(CDC)IT 인프라다양한 플랫폼(메인프레임, 유닉스, 윈도우) – 금융 관련 전산 업무 등 복잡한 작업 처리단일 플랫폼(현재는 주로 윈도우 기반)– 일관된 환경으로 관리전력밀도저밀도 (보통 1~3Kw/Rack)고밀도 (10Kw/Rack 이상, 고사양의 서버를 집중 배치하여 자원 효율성을 극대화)데이터센터 구조설비 확장이 제한적인 구조모듈형, 유연한 IT 인프라 확장..