본문 바로가기
컴어스

[CURTURE] SRE 파트 오태기 과장, 박길장 님의 이야기

by NHN 커머스 2024. 9. 13.

 

온라인 쇼핑몰은 24시간 언제든지 고객이 방문할 수 있는 무인 매장이나 다름없어요. 고객이 필요한 물건을 구매하고자 방문했는데 매장 문이 닫혀 있다면 어떨까요? 다른 매장으로 발길을 돌리거나 최악의 경우 다시 방문하지 않을 수도 있어요. 이는 매출뿐만 아니라 브랜드 신뢰도와 이어지기 때문에, 온라인 쇼핑몰에서 안정적인 서버는 매우 중요해요. 특히 대규모 할인 이벤트 등을 진행할 때 원활한 쇼핑 경험은 고객의 만족도를 더욱 높일 수도 있죠. 

 

오늘은 고도몰에서 안정적인 서버를 제공할 수 있도록 일하고 있는 SRE 파트의 오태기 과장님, 박길장 사원님을 직접 만나보았습니다. 생소할 수도 있는 SRE 파트가 어떤 업무를 하는 곳인지 자세히 들어보겠습니다.

 


Q. 안녕하세요! 두 분 자기소개 부탁드립니다. 

오태기 과장 | 안녕하세요. 고도몰의 전반적인 서버 운영 및 관리를 담당하고있는 오태기라고 합니다.

박길장 사원 | 안녕하세요. 파트장님과 함께 고도몰 솔루션 서버 운영 및 관리를 담당하고 있는 박길장입니다.

 

 

Q. SRE 파트는 어떤 업무를 하는 파트인가요?

오태기 과장 | 파트명이 생소하실 것 같아서 먼저 설명해 보자면요. SRE는 사이트 신뢰성 엔지니어링(Site Reliability Engineering)의 약자로, 서버를 운영하면서 신뢰성과 가용성을 유지하는 역할을 합니다. 개념 자체는 구글에서 처음 도입했고요. 대규모 시스템이 안정적으로 운영되도록 하면서 장애가 발생했을 때 빠르게 대응하는 업무를 하고 있어요.

 

박길장 사원 | 쉽게 말씀드리자면 쇼핑몰 서버의 트래픽이 증가하거나 시스템이 확장됨에 따라 성능이 저하되지 않도록 시스템의 안정성과 성능을 최적화하는 거예요. 이를 통해 쇼핑몰을 원활하게 운영할 수 있도록 하는 거죠.

 

 

Q. SRE를 검색하면 DevOps가 빠지지 않더라고요. 어떤 차이점이 있나요?

오태기 과장 | DevOps는 개발팀과 운영팀 간의 협업을 강화해 소프트웨어 배포 속도와 효율성을 높이는 것을 목표로 합니다. 그러다 보니 작업 시간을 단축할 수 있도록 CI/CD*를 통해 프로세스를 최적화하는 업무들을 맡아요. 반면, SRE는 위에서 말씀드렸듯 시스템의 신뢰성과 가용성을 유지하면서 주로 모니터링과 안정성 관리에 중점을 두죠. 정리하자면 DevOps는 협업과 자동화에, SRE는 시스템 안정성에 초점을 맞추는 차이가 있습니다.

*CI/CD: 개발 단계부터 배포까지 자동화를 통해서 더 효율적이고 빠르게 사용자에게 빈번히 배포할 수 있도록 하는 것으로, CI는 Continuous Integration 지속적인 통합, CD는 Continuous Delivery 지속적인 서비스 제공 또는 Continuous Deployment 지속적인 배포를 의미해요.

SRE는 소프트웨어 엔지니어링과 시스템 엔지니어링의 결합으로 탄생했어요 ⓒAdservio

 

 

Q. SRE가 중요한 이유는 무엇인가요? 고도몰에 어떤 영향을 미치는지 궁금해요.

박길장 사원 | 서비스가 24시간 내내 안정적으로 작동해야 하는 환경에서 SRE는 시스템 모니터링을 통해 고객이 언제나 불편함 없이 서비스를 이용할 수 있도록 지원해요. 장애 발생 시에도 자동화 시스템이 먼저 감지하여 빠르게 문제를 해결하고 중단 시간을 최소화시킵니다.

 

오태기 과장 | 고도몰의 가장 큰 장점인 커스터마이징도 SRE 통해 빠른 개발과 안정적인 운영을 동시에 할 수 있기 때문이에요. 클라우드 서버를 이용하여 스케일 업 등 유연한 대응이 가능하기 때문에, 트래픽이 급증해도 빠르게 분산시켜 성능을 최적화시킬 수 있어요. 모든 인프라 환경 모니터링과 그에 따른 대응도 자동으로 처리되고 있는데요. 최적화 작업을 통해 클라우드 비용을 절감시켜 고객에게 더 낮은 가격으로 좋은 서버를 제공할 수 있죠.

 

고도몰은 기업형 온라인 비즈니스도 안정적으로 제공해요

 

 

Q. 최근 어떤 고민들을 하고 계신가요?

오태기 과장 | 전반적으로 인프라 운영 환경에 대해 더 안정적인 서비스를 제공할 수 있도록 노력하고 있는데요. 최근에는 갑작스럽게 쇼핑몰로 유입되는 트래픽을 더 원활하게 받기 위해 인프라 구조를 어떻게 개편하면 좋을지, DDoS*와 같은 악의적인 사이버 공격이 발생했을 때 어떻게 하면 자동으로 조치될 수 있을지 등을 고민하고 있어요.

*DDoS(Distributed Denial of Service: 분산서비스거부): 서비스 중단을 목적으로 표적 서버, 서비스 또는 네트워크에 인터넷 트래픽을 대량으로 보내려고 시도하는 악의적인 사이버 공격의 형태

 

 

Q. 지금까지 진행했던 프로젝트 중 가장 기억에 남는 것은 무엇인가요?

오태기 과장 | 물리 서버를 전부 클라우드 서버로 마이그레이션(이전) 했던 작업이 가장 기억에 남습니다. 데이터 이전 시 누락이 되면 고객에게 직접적으로 피해가 갈 수 있기 때문에 사전에 체크리스트를 꼼꼼히 작성했어요. 프로세스대로 성공적으로 전체 이관이 완료했을 때의 성취감은 아직도 잊을 수가 없죠.

 

박길장 사원 | 올해 초 진행된 마녀공장 네고왕 이벤트를 담당했었는데요. 대규모 트래픽을 감당할 수 있도록 서버 스펙을 최대한 지원했고, 페이지 자체도 로딩이 빠르게 될 수 있도록 최적화하는 데 집중했어요. 이벤트가 성황리에 마무리되어서 뿌듯했던 기억이 납니다.

 

 

Q. SRE 파트에서 좋은 성과를 내기 위해 어떤 자질과 역량을 갖춰야 할까요?

오태기 과장 | SRE의 핵심은 인프라 환경과 시스템 안정성을 유지하면서도 효율성을 극대화하는 것입니다. 이를 위해서는 리눅스(Linux), 네트워킹, 클라우드 플랫폼 운영과 같은 인프라 기술 역량이 필요하며, 프로그래밍 및 자동화 능력이 필수적이에요. 파이썬(Python)이나 셸(Shell) 스크립트를 사용해 반복적인 작업을 자동화하여 운영 효율을 높일 수 있어야 합니다.

 

박길장 사원 | 서버, 애플리케이션, 네트워크 전반에서 발생하는 문제를 명확하게 진단하는 능력이 필요해요. 이를 통해 문제의 근본적인 원인을 파악해 재발 방지 대책을 수립해야 하죠. 무엇보다 장애 대응 시에 침착함을 유지하고 우선순위를 판단하여 빠르게 문제를 해결하는 것이 가장 중요한 자질인 것 같습니다.

 

 

 

Q. 이를 갖추기 위한 본인만의 업무 팁이 있다면 말씀해 주세요.

오태기 과장 | 경험을 기반으로 말씀드리자면 많이 해 보는 게 답인 것 같아요. 구글링이나 GPT를 통해서 찾아보고 따라 하는 건 이해할 수는 있지만 몸에 익지 않아서 금방 잊어버리고 말아요. 컴퓨터에 가상 서버를 설치할 수 있거든요. 직접 설정해 보고 적용해 보고 하는 것이 도움이 됩니다. 또, 새로운 기술을 스스로 많이 찾아보고 마찬가지로 실습해 보는 것이 가장 중요해요.

 

박길장 사원 | 비슷한 의미인 것 같은데요. 사실 장애 상황을 두려워하기보다는, 많이 대응하고 경험할수록 판단력과 대처 능력이 느는 것 같아요. 또, 이런 경험을 팀원들과 공유하고 토론하는 것도 많은 도움이 됐습니다.

 

 

 

Q. 업무를 하시면서 생겨버린 직업병이 있으신지 궁금해요.

오태기 과장 | 온라인 쇼핑몰에서 물건을 구매할 때 어느 회사 솔루션인지, 도메인은 어디서 구매했는지 이런 정보들을 확인해 보곤 해요. (웃음) 그중에서도 SSL 보안 인증서가 적용되었는지 반드시 확인하는 편인데요. 개인 정보가 암호화해서 전송되는지 여부를 결정하기 때문에 온라인 쇼핑몰에는 필수로 적용되어 있어야 해요. https로 시작한다면 보안 서버가 설치되었다는 뜻이에요.

 

박길장 사원 | 사이트에서 오류가 발생하면 하단에 오류 코드가 나오거든요. 그걸 보면 어떤 부분이 문제인지 알 수 있는데, 그 부분을 자연스럽게 확인하게 되는 것 같아요.

 

 

Q. 마지막으로 SRE 파트의 최종 목표는 무엇인가요?

오태기 과장 | 저희는 항상 똑같은 목표를 가지고 있는 것 같아요. 안정적인 시스템 제공을 제공해서 고도몰을 이용하는 분들에게 최적의 인프라 환경을 제공하고, 신뢰성을 가질 수 있도록 하는 것이 목표입니다.