Mô tả công việc
Cloud Operation Engineer - TA192

Yêu cầu công việc

1. Quản lý Multi-Account & Landing Zone

  • Thiết kế, triển khai và vận hành AWS Landing Zone sử dụng AWS Control Tower và Account Factory for Terraform (AFT).
  • Quản lý và cấu hình AWS Organizations, Service Control Policies (SCPs), Organizational Units (OUs)
  • Tự động hóa việc tạo và quản lý AWS accounts thông qua AFT pipeline, đảm bảo compliance và governance.
  • Thiết lập và duy trì account baseline: security controls, logging, networking standards cho tất cả accounts
  • Quản lý IAM roles, policies, permission boundaries across multi-account environment.
  • Triển khai và quản lý AWS SSO (IAM Identity Center) cho centralized authentication và authorization.

2. Vận hành Shared Services & Network Hub

  • Quản lý và vận hành Route 53 Resolver, Private Hosted Zones, DNS forwarding rules cho toàn bộ tổ chức.
  • Triển khai và quản lý VPC Endpoints (Gateway và Interface Endpoints) để tối ưu connectivity và chi phí.
  • Vận hành Transit Gateway và quản lý routing cho hạ tầng
  • Quản lý VPN Site-to-Site connections cho kết nối tới partners và third-party services
  • Triển khai và quản lý AWS PrivateLink cho kết nối secure tới các services của partners

3. Quản trị Network Security Appliances

  • Quản lý Palo Alto Networks (PAN-OS) firewalls: cấu hình policies, zones, NAT rules, threat prevention
  • Vận hành F5 Load Balancers: configuration, traffic management, SSL offloading, health monitoring 
  • Đánh giá tác động và tham gia Change Advisory Board (CAB) cho các thay đổi liên quan đến network security 
  • Phối hợp với SOC/NOC teams để nâng cao hiệu quả vận hành và incident response

4. Monitoring & Observability

  • Xây dựng và duy trì hệ thống monitoring tập trung sử dụng Grafana, Prometheus, Loki stack
  • Thiết lập log aggregation từ tất cả accounts về central logging account sử dụng CloudWatch Logs, Loki
  • Tạo dashboards trên Grafana cho real-time visibility vào infrastructure, applications, network
  • Cấu hình alerting rules, notification channels (PagerDuty, Slack, Email) cho incident response
  • Quản lý CloudWatch Alarms, EventBridge rules, SNS topics cho automation và alerting
  • Chủ động giám sát, phân tích và cảnh báo sớm các chỉ số vận  hành, phát hiện bất thường trước khi sự cố xảy ra

5. Automation & Infrastructure

  • Phát triển và maintain Terraform modules cho AFT customizations và account provisioning
  • Xây dựng CI/CD pipelines cho infrastructure deployments sử dụng GitLab CI, GitHub Actions
  • Viết Python/Bash scripts để tự động hóa các tác vụ operational và maintenance
  • Tạo và maintain Terraform state management, remote backends, workspace strategies
  • Triển khai automation giúp giảm thiểu thao tác thủ công, nâng cao độ chính xác và hiệu quả vận hành 

6. Incident Management &

  • Đảm bảo sự cố liên quan đến cloud infrastructure được ghi nhận, xử lý và khắc phục kịp thời
  • Xây dựng, duy trì và kiểm thử kế hoạch BCP/DR cho các hệ thống cloud trọng yếu
  • On-call rotation để support 24/7 operations và incident response
  • Tạo runbooks, documentation, và knowledge base cho operational procedures
  • Giám sát liên tục mức độ sẵn sàng của hạ tầng cloud, so sánh với KPI cam kết và báo cáo sai lệch 

7. Collaboration & Support

  • Hỗ trợ development teams trong việc onboard lên cloud platform
  • Tư vấn về best practices cho application deployment, security, networking
  • Đào tạo và mentor junior team members
  • Quản lý license, hợp đồng, vendor contracts, đảm bảo tuân thủ SLA
  • Maintain tài liệu thiết kế, SOP, Runbook và danh sách dịch vụ đang chạy trên hạ tầng
  • Xây dựng checklist công việc vận hành hàng ngày và báo cáo định kỳ 

Yêu cầu ứng viên

  • Bachelor's degree in Computer Science, Information Technology, or related field, or equivalent relevant work experience.
  • Minimum of 5 years of experience working with AWS Cloud Infrastructure.
  • Minimum of 3 years of experience managing multi-account AWS environments.
  • Proven hands-on experience in deploying AWS Control Tower and Account Factory for Terraform (AFT).
  • Practical experience with Palo Alto Networks firewalls and F5 Load Balancers in enterprise environments.
  • Experience in building and operating centralized monitoring systems using Grafana, Prometheus, and Loki stack.
  • Experience in developing Terraform modules and CI/CD pipelines for infrastructure automation.
  • Experience in incident response, BCP/DR planning, and participating in on-call rotation.
  • Prior experience in banking, financial services, or large-scale organizations with stringent requirements for security, reliability, and service availability is highly preferred.
  • Comprehensive understanding of AWS Cloud Infrastructure, including multi-account management, Landing Zone, networking, security, and related services.
  • In-depth expertise in AWS Organizations, Control Tower, Account Factory for Terraform (AFT), Service Control Policies (SCPs), and Organizational Units (OUs).
  • Proficiency in AWS Networking: Transit Gateway, Route 53, VPC, Subnetting, VPC Endpoints (Gateway & Interface), PrivateLink, and Site-to-Site VPN.
  • Hands-on experience with Palo Alto Networks (PAN-OS): policies, zones, NAT rules, and threat prevention.
  • Hands-on experience with F5 BIG-IP: virtual servers, pools, health monitors, SSL offloading, and traffic management.
  • Strong knowledge of Monitoring & Observability stack: Grafana, Prometheus, Loki, CloudWatch Logs, Metrics, and Alarms.
  • Solid knowledge of Infrastructure as Code: Terraform (advanced level - modules, state management, workspaces), Python and Bash scripting.
  • Understanding of CI/CD pipelines for infrastructure deployments using GitLab CI, GitHub Actions, and GitOps workflow.
  • Knowledge of IAM best practices: roles, policies, permission boundaries, and AWS SSO (IAM Identity Center).
  • Understanding of AWS Well-Architected Framework, security baselines, compliance standards, and governance policies.
  • Knowledge of BCP/DR planning, incident management, and change management processes.
  • Strong ability to troubleshoot and resolve complex issues related to cloud infrastructure, networking, and security.
  • Network analysis skills: Flow Logs analysis, packet captures, and connectivity troubleshooting.
  • Excellent documentation and communication skills, with ability to create runbooks, SOPs, and technical documentation.
  • Ability to work effectively in teams, with capability to mentor and train junior members.
  • Good English proficiency for technical documentation and collaboration
  • Ability to work under pressure, with readiness for on-call rotation and 24/7 operations support.
  • Strong organizational and time management skills, with ability to prioritize tasks and manage multiple priorities.

 

Giá trị cốt lõi

1. KHÁT VỌNG
2. CHÍNH TRỰC
3. HIỆU QUẢ
4. KỶ CƯƠNG
5. SÁNG TẠO