경력기술서
이름 표세열
이메일 pyo_counting@kakao.com
깃허브 https://github.com/pyo-counting
소개
온프레미스와 AWS 클라우드 환경에서 결제 도메인의 DevOps 및 SRE 업무를 수행하며 7년간 기술적 성장을 이루어왔습니다. 첫 회사에서는 애플리케이션 배포와 모니터링 업무를 담당하며, 비효율적인 프로세스를 개선하기 위해 GitLab CI/CD 파이프라인과 모니터링 시스템을 주도적으로 구축했습니다.
현재는 AWS 클라우드 환경에서 아키텍처 설계 및 효율적이고 사용자 친화적인 CI/CD, 모니터링 파이프라인 구성을 목표로 업무를 수행 중입니다. 장애 상황에는 차분하게 문제를 분석하고 해결하며, 문제의 원인을 명확히 파악한 뒤 재발 방지 대책을 체계적으로 문서화하고 공유함으로써 서비스의 안정성과 신뢰성을 높이고자 합니다.
기술
AWS, Kubernetes, Terraform, Docker, Helm, Docker Swarm, Shell Script, Go
Prometheus, Grafana Loki, Grafana Tempo, DataDog, OpenTelemetry, Grafana, Grafana Alloy, Cortex
Git, GitLab CI/CD, Argo CD, Argo Workflows
Confluence, Jira, Notion, Slack
경력
컬리, 컬리페이 / 데브옵스
2022.12 ~ 현재
Argo Workflows, Argo CD를 이용한 GitOps 기반 배치 관리 시스템 도입
AWS Batch 기반 배치 애플리케이션 시스템의 문제(AWS 콘솔에서 수동 배포, 지원하지 않는 기능) 해결을 위해 Argo Workflows와 Argo CD를 이용한 GitOps 기반 배치 관리 파이프라인 구축
배치 수행 이력 장기 보관을 위한 배포 환경별 archive, retention 정책, k8s 클러스터의 안정성 보장을 위한 workflow와 pod의 최대 동시 실행 개수, 최대 실행 시간을 제한하는 정책 운용
k8s aggregated clusterrole, clusterrolebinding, rolebinding을 이용한 역할별 권한 분리
사용 기술
: Argo Workflows, Argo CD, Helm, GitLab, EKS
서비스의 안정적인 운영을 위한 SLI / SLO 기반 모니터링 체계 도입
모든 개발자와 기획자가 서비스의 안정성과 장애 상황에 대한 명확한 인식을 목표로 TF 운영
신뢰성을 보장하기 위한 4가지 개념(이상 징후, SLI/SLO, 장애 레벨, 장애 등급), 서비스 별 합의 내용 관리를 위한 명세서 개념 도입
알람 시스템이 익숙하지 않은 사용자를 위한 Datadog monitor(알람) 탬플릿 작성 및 관리
사용 기술
: Datadog, Confluence. Slack
dev, stg 환경 메트릭, 트레이스 수집/모니터링 시스템 구축
dev, stg 환경에서 애플리케이션의 관측가능성, 메트릭 / 트레이스 / 로그 상관 분석 제공을 위해 Prometheus, Grafana Tempo 기반 아키텍처 설계, 구축 작업 수행
안정적인 운영, 비용 관리를 위한 관리 정책(보관 기간, 샘플링 등) 수립, 적용
Grafana, PromQL 사용자 가이드, Grafana Tempo 관리자 가이드 작성 및 공유
사용 기술
: Grafana Tempo, Prometheus, Grafana Alloy, OpenTelemetry, Grafana, Helm, EKS, AWS, Terraform
사내 로그 수집/모니터링 시스템 재구축
분산화된 로그 수집/모니터링 시스템의 사용성 개선을 목적으로 AWS multi account 환경에서의 Grafana Loki 기반 아키텍처 설계, 구축 작업 수행
안정적인 운영, 비용 관리를 위한 관리 정책(보관 기관, 쿼리 제한 등) 수립, 적용
Grafana, LogQL 사용자 가이드, Grafana Loki 관리자 가이드 작성 및 공유
사용 기술
: Grafana Loki, Promtail, Lamba Promtail, Grafana, Helm, EKS, AWS, Terraform
GitOps 기반 CI/CD 파이프라인 고도화
Argo CD single source를 사용하면서 겪은 k8s manifest 관리 문제 개선을 위한 Helm chart 개발과 multiple source 적용
GitLab CI/CD 설정 파일 작성 시 include와 변수를 이용해 쉽게 구성할 수 있는 템플릿 작성
Git을 활용한 배포, 롤백 프로세스 정의
사용 기술
: GitLab, Argo CD, EKS, AWS
다날 / FS솔루션팀
2018.05 ~ 2022.11
로그 모니터링 시스템 도입
Linux cron을 이용한 서버 별 로그 파일 백업 및 삭제 시스템, Linux 명령어 기반 로그 검색 환경 개선을 위한 Grafana Loki 도입
Prometheus와의 상관관계 분석 편의성을 위한 공통 label 정의
사용 기술
: Grafana Loki, Docker Swarm, Docker, Docker Compose
메트릭 모니터링 시스템 고도화
Prometheus 고가용성(high availability) 확보를 위한 Cortex 도입
Docker Compose, Shell script를 이용한 Docker Swarm service 배포 코드화
사용 기술
: Cortex, Consul, Docker Swarm, Docker, Docker Compose, Prometheus
메트릭 모니터링 시스템 도입
Linux 명령어 기반 서버 모니터링 개선, 서버와 애플리케이션 메트릭 간 상관관계 분석을 위한 Prometheus, Grafana 도입
Docker Compose, Shell script를 이용한 구성 요소 배포 코드화
사용 기술
: Prometheus, Grafana, Docker, Docker Compose
GitLab CI/CD 도입
로컬 환경에서의 빌드, 배포 업무 진행으로 발생할 수 있는 장애 위험, human error 개선을 위한 GitLab CI/CD 도입
사용 기술
: GitLab, Docker, Docker Compose
Last updated