Mô tả công việc
Senior SRE - Problem & Reliability - Hà Nội - TA174

Job Purpose / Mục đích công việc

Vị trí chịu trách nhiệm thực thi và điều phối hoạt động Problem Management, đồng thời chủ động phân tích và đề xuất cải tiến nhằm nâng cao độ ổn định hệ thống CNTT.
Vai trò này đảm bảo:
• Xác định và phân tích nguyên nhân gốc
• Giảm tỷ lệ sự cố lặp lại
• Nâng cao reliability và hiệu quả vận hành

Key Responsibilities / Các trách nhiệm chính

1. Problem Management Execution & Coordination
• Thực hiện và điều phối quy trình Problem Management
• Chủ động quản lý Problem records
• Đảm bảo Problem lifecycle được thực hiện đầy đủ

2. Root Cause Analysis (RCA)
• Thực hiện và dẫn dắt RCA cho: Incidents lặp lại, Incidents có impact trung bình – cao
• Xác định: Root cause, Contributing factors
• Đảm bảo RCA có thể hành động

3. Technical Investigation
• Phân tích log đa tầng: Application / Backend / Database / Infrastructure
• Sử dụng: ELK / Splunk / Grafana / Prometheus
• Truy vết end-to-end flow

4. Corrective & Preventive Action Management
• Theo dõi và thúc đẩy triển khai: Corrective actions, Preventive actions
• Phối hợp với Change Management
• Đảm bảo closure đúng hạn

5. Trend Analysis & Continuous Improvement
• Phân tích xu hướng incident
• Nhận diện vấn đề hệ thống
• Đề xuất: cải tiến monitoring, cải tiến quy trình, giảm incident volume

6. Metrics & Reporting
• Theo dõi: Incident recurrence, Problem resolution effectiveness
• Chuẩn bị báo cáo RCA / Problem
• Đóng góp xây dựng dashboard

7. Stakeholder Collaboration
• Làm việc với: Application / Infrastructure / Network / DevOps
• Hỗ trợ các team trong phân tích sự cố
• Giao tiếp giữa technical và business

8. Compliance & Governance
• Đảm bảo tuân thủ ITIL
• Hỗ trợ audit và kiểm tra nội bộ

Qualifications / Yêu cầu năng lực

1. Education / Trình độ học vấn: Tốt nghiệp Đại học CNTT, Khoa học máy tính hoặc liên quan

2. Experience / Kinh nghiệm
• 5 – 8 năm kinh nghiệm trong: IT Operations / DevOps / SRE / ITSM
• Có kinh nghiệm: Phân tích sự cố production; Thực hiện Root Cause Analysis

3. Knowledge & Skills / Kiến thức & Kỹ năng
- Technical
• Hiểu hệ thống distributed / microservices
• Kinh nghiệm với: ELK / Splunk / Grafana / Prometheus
• Kỹ năng phân tích log & tracing
• Kiến thức database
- ITSM & Process: Hiểu ITIL (Incident, Problem, Change); Kinh nghiệm vận hành quy trình ITSM
- Analysis: Strong root cause aanalysis; Systems thinking
- Soft Skills: Giao tiếp tốt; Khả năng điều phối; Chủ động và trách nhiệm

Perks & Benefits / Chế độ đãi ngộ

- Thu nhập hấp dẫn, lương thưởng cạnh tranh theo năng lực, gói thu nhập 15-18 tháng lương/năm
- Thưởng các Ngày lễ, Tết (theo chính sách ngân hàng)
- Được vay ưu đãi theo chính sách ngân hàng từng thời kỳ
- Chế độ ngày phép hấp dẫn theo cấp bậc công việc: 14 ngày phép/năm
- Bảo hiểm theo luật lao động + Bảo hiểm VPBank care cho CBNV theo cấp bậc và thời gian công tác
- Được tham gia các khóa đào tạo tùy thuộc vào Khung đào tạo cho từng vị trí
- Cơ hội làm việc tại một Ngân hàng tiên phong ứng dụng AI & ML trong thúc đẩy giá trị kinh doanh với hệ sinh thái đa dạng: Ngân hàng, Tài chính, Chứng khoán, Bảo hiểm,...
- Môi trường làm việc chuyên nghiệp với cơ hội làm việc trực tiếp cùng ban lãnh đạo ngân hàng lớn, mở ra nhiều cơ hội học hỏi và phát triển sự nghiệp.