티스토리 뷰

 방금 있었던 일이다.

 내가 초창기부터 런칭, 그리고 꽤 최근까지도 담당한 우리 회사의 서비스 상용 서버가 내려갔다. 그리고 약 15분만에 서버를 복구했다.(중간에 다른 문제로 시간이 좀 걸렸는데 그 문제만 아니었으면 더 빠르게 복구했을 것이라고 생각한다.)

 사실 이렇게 서버 다운에 대응이 가능했던 이유가 있는데, 내가 서버 인프라 환경을 구축할 때 Prometheus + Grafana로 모니터링 시스템을 구축하며 서버가 다운될 경우를 대비해 메일이 전송되도록 해놨기 때문이다.(물론 서버 재시작 스크립트도 준비해놨다.)

 사실 우리 회사는 자체 서비스가 처음이고, 작은 회사이니 해당 서비스 인프라 구축을 전적으로 내가 알아서 했는데, 모니터링 시스템을 구축해야겠다고 생각했었던 건 내가 다른 프로젝트들을 하며 테스트를 통해 깨달은 모니터링의 중요성에 대한 경험 때문이었다. 그래서 혼자 모니터링 시스템에 대해 찾아보았고, Prometheus와 Grafana의 사용법을 익히게 되었다. 그리고 이번 서비스를 위해 모니터링 시스템 + 서버 다운시 메일 전송까지 준비해놓은 것이다.

 그렇게 해서 꼼꼼하게 처리해놓은 덕에 실제 서버가 다운되었을 때도 대응이 가능했다.(실제 상용 서버가 다운된 건 이번이 처음이다.)

 처음에 메일이 왔을 땐 '오탐인가' 했는데(그래도 확인은 해보려 했다) 두번째 메일이 왔을 때 이건 진짜 서버가 다운된거라는 확신이 생겼고, 다른 분들과 이야기해서 서버를 빨리 재시작할 수 있었다. 그리고 Resolved(해결됨) 메일을 받고서야 안도감이 들었고, 작은 회사에서 서버 개발자로 일하는 보람을 느낄 수 있었다.

 만약 내가 엄청난 대기업에 다녀서 인프라 구축도 누군가가 해주고 그런 상황이라면 이렇게 내가 직접 인프라를 구축할 필요는 없을 것이다. 그렇지만 이렇게 내가 필요하다고 생각해서 공부하고 실제 업무에 적용하고 그걸로 성과를 보는 이런 경험을 적게 했지 않았을까 싶다.

300x250
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함