Nguyên nhân của sự cốTheo Cloudflare, sự cố bắt đầu vào 18/11/2025 khi một thay đổi quyền truy cập vào cơ sở dữ liệu (ClickHouse) gây ra việc sinh ra “feature file” (tập cấu hình) dùng cho hệ thống Bot Management bị phồng lên gấp đôi so với kích thước mong đợi.
Vì file quá lớn, phần mềm định tuyến (proxy) của Cloudflare bị crash khi load cấu hình này, dẫn đến lỗi HTTP 5xx (lỗi máy chủ) trên nhiều dịch vụ.
Cloudflare sau đó đã rollback (quay lại) version cũ của file cấu hình và ngừng sinh file lỗi nữa.
Thời gian khôi phục: theo Cloudflare, “core traffic” phần lớn hoạt động bình thường lại vào khoảng 14:30 UTC, và tới ~17:06 UTC thì tất cả hệ thống liên quan đều được khôi phục.
Cloudflare thừa nhận đó là lỗi nội bộ; không có bằng chứng về tấn công mạng.
Tác động và ảnh hưởng
Ảnh hưởng đến người dùng Internet
-
Nhiều website, nền tảng lớn bị gián đoạn: ChatGPT (OpenAI), X (trước là Twitter), Canva, Spotify, nhiều dịch vụ sử dụng Cloudflare CDN/ bảo mật đều gặp lỗi hoặc không truy cập được.
-
Người dùng nhìn thấy lỗi “500 Internal Server Error” khi truy cập nhiều site, gây gián đoạn trải nghiệm.
-
Các công cụ xác minh như Turnstile của Cloudflare cũng không load được, dẫn đến việc xác minh bot hay an ninh bị ảnh hưởng.
-
Người dùng đăng nhập vào các trang qua Cloudflare Access gặp lỗi xác thực – nhiều session không thể đăng nhập mới.
-
Latency (độ trễ) gia tăng: Cloudflare nói CPU bị “ăn” nhiều bởi hệ thống debug/observability khi ghi lỗi, nên tốc độ phản hồi CDN chậm hơn.
Ảnh hưởng đến doanh nghiệp, tổ chức
Doanh nghiệp sử dụng Cloudflare làm lớp CDN + bảo mật + proxy bị ảnh hưởng doanh thu, uy tín: nếu website không hoạt động, khách hàng không truy cập được, giao dịch bị gián đoạn.
Theo Tom’s Guide, thiệt hại tài chính có thể rất lớn: một số ước tính từ dịch vụ bảo trì web nói rằng “5 đến 15 tỷ USD mỗi giờ” có thể bị mất trong thời gian outage.
Một số công ty lớn (Fortune 500) dùng Cloudflare chịu rủi ro lớn hơn.
Cloudflare Dashboard (bảng điều khiển quản lý) cũng bị lỗi – làm khó việc quản trị, kiểm soát của khách hàng sử dụng dịch vụ.
Email security: Cloudflare cũng báo có ảnh hưởng tạm thời đến nguồn dữ liệu đánh giá IP (dùng để lọc spam) – mặc dù đây không phải lỗi nghiêm trọng nhưng có thể ảnh hưởng nhỏ tới việc phân loại email.
Ảnh hưởng hệ thống Internet lớn hơn, hạ tầng
Làm nổi bật sự phụ thuộc lớn vào các nhà cung cấp hạ tầng mạng (CDN, bảo mật, proxy): khi một nhà cung cấp lớn như Cloudflare gặp sự cố, rất nhiều trang web bị ảnh hưởng cùng lúc — cho thấy rủi ro hệ thống khi phụ thuộc “điểm nghẽn” trung tâm.
Đây là minh chứng cho tính “mong manh” (fragility) trong kiến trúc web hiện đại: nhiều dịch vụ web lớn chia sẻ hạ tầng chung, nên outage của hạ tầng trung gian có thể lan rộng. (Nguyên lý tương tự đã được phân tích trong các nghiên cứu về phụ thuộc CDN / DNS / CA)
Uy tín của Cloudflare: một sự cố lớn như thế có thể làm giảm niềm tin của khách hàng (từ nhỏ đến lớn), buộc họ cân nhắc các chiến lược đa tuyến (multi-CDN) hoặc backup dự phòng.
Bài học rút ra
Quản trị cấu hình (configuration management) cực kỳ quan trọng: File cấu hình (feature file) bị quá lớn là nguyên nhân gốc dẫn đến crash — cho thấy cần có kiểm tra, giới hạn (limit), validate với các cấu hình tự sinh. Việc deploy cấu hình tự động (auto-deploy) cần cơ chế kiểm soát an toàn: kích thước file, schema, ràng buộc (upper bounds).
Rollback + kill-switch cần được ưu tiên: Cần kill-switch (công tắc dừng khẩn cấp) cho các thành phần có thể gây rủi ro (“cấu hình bot”, module “proxy”, …) để không làm toàn hệ thống sập nếu lỗi. Khi có sự cố, khả năng quay lại cấu hình trước đó (rollback) là điều sống còn.
Phân tán rủi ro (resilience design)
- Các doanh nghiệp nên cân nhắc kiến trúc đa nhà cung cấp (multi-CDN, multi-hạ tầng) để tránh “đặt tất cả trứng vào một giỏ”.
- Thiết kế hệ thống có fallback khi một lớp trung gian (như CDN / proxy) bị lỗi — ví dụ: fallback DNS, cache tĩnh, hoặc trả về trang dùng được nếu CDN chính down.
Minh bạch và phản hồi sự cố
- Cloudflare đã công bố chi tiết postmortem, giải thích rõ nguyên nhân – rất cần thiết để xây dựng lòng tin.
- Cần có kênh thông tin rõ ràng cho khách hàng (status page, thông báo, timeline) khi sự cố xảy ra.
Ý nghĩa rộng hơn
Sự cố lần này là lời nhắc nghiêm túc rằng cơ sở hạ tầng Internet không phải là “không thể sập” — ngay cả những công ty lớn, nền tảng quan trọng cũng có thể gặp lỗi nội tại.
Khi AI (như ChatGPT) và các ứng dụng web ngày càng phổ biến, tính ổn định của hạ tầng như Cloudflare càng trở nên quan trọng — việc một nhà cung cấp bị gián đoạn có thể làm gián đoạn trải nghiệm người dùng với công nghệ cao.
Về mặt an ninh mạng: mặc dù đây không phải là tấn công, nhưng rủi ro cấu hình nội bộ (“misconfiguration”) là rất lớn — các công ty cần coi việc quản lý cấu hình như một phần quan trọng trong chiến lược an ninh.