Mô tả công việc
Senior Site Reliability Engineer (Incident Management)

Tin tuyển dụng lược gọn

Key Responsibilities

  • Thực thi & điều phối Problem Management lifecycle
  • Quản lý Problem records, đảm bảo tracking & closure
  • Dẫn dắt RCA cho incidents lặp lại / impact cao
  • Phân tích log đa tầng, truy vết end-to-end flow
  • Sử dụng ELK, Splunk, Grafana, Prometheus để điều tra sự cố
  • Theo dõi & thúc đẩy corrective / preventive actions
  • Phối hợp Change Management, đảm bảo xử lý hiệu quả
  • Phân tích xu hướng incident, đề xuất cải tiến hệ thống
  • Theo dõi metrics & chuẩn bị báo cáo RCA
  • Phối hợp đa team, đảm bảo tuân thủ ITIL & audit

Requirements

Education

  • Đại học CNTT hoặc liên quan

Experience

  • 5–8 năm: IT Ops / DevOps / SRE / ITSM
  • Kinh nghiệm production incidents & RCA

Technical Skills

  • Hiểu distributed systems / microservices
  • Kinh nghiệm ELK, Splunk, Grafana, Prometheus
  • Log analysis, tracing, troubleshooting
  • Kiến thức database

Process & ITSM

  • Hiểu ITIL (Incident, Problem, Change)
  • Kinh nghiệm ITSM

Soft Skills

  • Phân tích tốt, tư duy hệ thống
  • Giao tiếp, phối hợp đa team
  • Chủ động, trách nhiệm cao