Mô tả công việc
Senior Site Reliability Engineer (Incident Management)
Tin tuyển dụng lược gọn
Key Responsibilities
- Thực thi & điều phối Problem Management lifecycle
- Quản lý Problem records, đảm bảo tracking & closure
- Dẫn dắt RCA cho incidents lặp lại / impact cao
- Phân tích log đa tầng, truy vết end-to-end flow
- Sử dụng ELK, Splunk, Grafana, Prometheus để điều tra sự cố
- Theo dõi & thúc đẩy corrective / preventive actions
- Phối hợp Change Management, đảm bảo xử lý hiệu quả
- Phân tích xu hướng incident, đề xuất cải tiến hệ thống
- Theo dõi metrics & chuẩn bị báo cáo RCA
- Phối hợp đa team, đảm bảo tuân thủ ITIL & audit
Requirements
Education
- Đại học CNTT hoặc liên quan
Experience
- 5–8 năm: IT Ops / DevOps / SRE / ITSM
- Kinh nghiệm production incidents & RCA
Technical Skills
- Hiểu distributed systems / microservices
- Kinh nghiệm ELK, Splunk, Grafana, Prometheus
- Log analysis, tracing, troubleshooting
- Kiến thức database
Process & ITSM
- Hiểu ITIL (Incident, Problem, Change)
- Kinh nghiệm ITSM
Soft Skills
- Phân tích tốt, tư duy hệ thống
- Giao tiếp, phối hợp đa team
- Chủ động, trách nhiệm cao