Hiện tượng mất điện có thể xảy ra ở những TTDL hiện nay dù được thiết kế theo cấp độ nào đi nữa. Bài viết sau trình bày một số nguyên nhân mất điện và yếu tố cốt lõi ảnh hưởng đến khả năng hoạt động liên tục của TTDL

Sự cố mất điện trong data center và nguyên nhân  1

1. Chi phí vs rủi ro

Khi thiết kế TTDL, vấn đề chi phí rất quan trọng và thường được cân nhắc vớicác rủi ro để đưa ra giải pháp phù hợp.Thiết kế hệ thống điện theo cấp độ Tier 1 là giải pháp có chi phí thấp nhất nhưng cũng có rủi ro cao nhất, mỗi thành phần trong hệ thống điện đều là một “đơn điểm gây lỗi” (single point of failure -SPOF). Dưới đây là mô tả về một hệ thống điện đặc trưng theo tiêu chuẩn Tier 1 cho TTDL.

Nguồn điện ban đầu được dẫn từ lưới điện chuyển đến trạm biến áp hoặc tủ hạ áp bên ngoài TTDL. Nguồn điện này sau đó được cấp cho tủ phân phối điện chính bên trong tòa nhà TTDL để phân phối đến các tủ phụ ở những khu vực khác nhau, mỗi tủ phân phối đều chứa một hoặc nhiều thiết bị ngắt mạch và cầu chì 

Giả sử TTDL có sử dụng máy phátđiện, hệ thống điện sẽ cần thêm bộchuyển nguồn tự động (ATS) trước khi cấp nguồn cho UPS. Tủ phân phối điện ngoài việc cấp nguồn cho UPS còn được dùng để cấp nguồn cho các thiết bị làm mát… Nguồn điện ở phía ngõ ra UPS sau đó sẽ qua các thiết bị ngắt mạch để rẽ nhánh đến các tủ rack. Ở đây, nguồn điện sẽ đi đến các thanh phân phối điện(PDU) gắn rack mà đa số đều được trangbị thiết bị ngắt mạch hoặc cầu chì.Cuối cùng, điện được dẫn vào dâynguồn (thông thường không có khóaan toàn) để phân phối đến các thiết bị CNTT. Với một thiết kế gồm nhiều “đơn điểm gây lỗi” như vậy, các hạ tầng loại nhỏ khó có thể hoạt động hiệu quả và ổn định trong nhiều năm liền mà không xảy ra sự cố nào.

2. Cải thiện hệ thống sẵn có

Để giảm thiểu các “đơn điểm gây lỗi”trong thiết kế Tier 1 hiện tại mà khôngphải chuyển sang hệ thống dự phòngTier 4 bao gồm hai bộ độc lập về mọi thiết bị trong toàn bộ chuỗi cung cấp điện, ta có thể sử dụng cấp độ tiếp theotrong thiết kế hệ thống điện là Tier 2.Một thiết kế Tier 2 điển hình sẽ có hai hoặc nhiều UPS được nối song song vớinhau để cùng chia tải, đảm bảo hỗ trợtải hoạt động liên tục ngay cả khi có một UPS gặp sự cố. Ngoài ra, khi bảo trì hoặcthay thế mới UPS, khả năng hoạt động của thiết bị vẫn không bị ảnh hưởng.

Sự cố mất điện trong data center và nguyên nhân  2

Ở cấp độ Tier 3, TTDL được thiết kế không chỉ dự phòng về UPS mà còn dự phòng nguồn điện lưới. Sử dụng thêm một đường điện lưới dự phòng để TTDL có hai nguồn điện độc lập đi vào hệ thống ATS trước khi cấp cho UPS sẽ cải thiện đáng kể mức độ dự phòng điệnvới mức chi phí thấp và dễ dàng thựchiện hơn Tier 4.

Cuối cùng là thiết kế dự phòng Tier 4với cấu hình giống như hai hệ thống Tier1, mỗi hệ thống đều có khả năng hoạtđộng độc lập để duy trì toàn bộ tải. Điệnsẽ được cấp từ hai nguồn vào khác nhauvà đi qua hai bộ UPS được cấu hìnhđồng bộ để cùng phân phối đến các thiếtbị trên tủ rack.

Với thiết kế Tier 3 và 4, một số điểmgiao nhau giữa hai hệ thống cho phépmỗi bên có thể cấp điện sang bên cònlại để bảo trì mà vẫn giữ cho tải tiếp tụchoạt động. Về lý thuyết, thiết kế này sẽđảm bảo khi bất kỳ thành phần nào củamột trong hai hệ thống gặp sự cố, bêncòn lại sẽ tiếp tục hỗ trợ tải cho cả hai.Tuy vậy, những giao điểm này có thể ẩnchứa nguy cơ tiềm tàng về xung đột điệndiễn ra giữa hai hệ thống.

Nếu gặp vấn đề trong quá trìnhchuyển mạch do lỗi từ người hoặc hư hỏng thiết bị, toàn bộ hạ tầng sẽ bị mấtđiện. Ngoài ra, việc bổ sung nhiều thiếtbị chuyển mạch cũng khiến đường điệnphức tạp hơn và làm giảm độ tin cậytổng thể cho hệ thống.

Vị trí hư hỏng thường gặp

1. Tủ rack

Ở cấp độ vi mô, sự cố mất điện phổbiến nhất thường xảy ra tại các tủ rack,do tình trạng quá tải của các thiết bịngắt mạch. Trừ khi bạn có bộ phân phốinguồn thông minh để giám sát dòngđiện hiện hành trên tủ hoặc đo thủ côngtại bảng điều khiển, còn lại, bạn khôngthể theo dõi được dòng điện tủ rack đãgần đạt đến giới hạn của thiết bị ngắt mạch hay chưa.

Khi có một thiết bị CNTT mới đượcsử dụng, có thể nó sẽ không lập tức làmquá tải công tắc của mạch điện nhưng vẫn có khả năng làm cho mạch điện của bạn gần đạt đến mức công suất giới hạn.Nếu tăng thêm một thiết bị bất kỳ, năng lượng tiêu thụ sẽ gây quá tải và ngắt mạch dẫn đến mất điện toàn bộ tủ rack.

Như đã đề cập, ngay cả với thiết kếdự phòng theo tiêu chuẩn Tier 4, độ tincậy vẫn sẽ không được đảm bảo nếukhông tính toán đầy đủ các tác động.Để đảm bảo dự phòng trên tủ rack, điềuquan trọng nhất là mức tải tổng cộngcủa tủ không vượt quá 80% định mứccủa thiết bị phân phối nguồn.

Ví dụ, một thanh nguồn có khả năngchịu tải 20 A chỉ nên sử dụng tối đa 16 A.Điều này đồng nghĩa nếu sử dụng thiếtbị nguồn điện kép, mức tải sẽ khôngđược quá 40% giá trị định mức thanhnguồn (20 A chỉ nên tải 8 A). Trườnghợp có một bên nguồn điện bị ngắt doquá tải hoặc lỗi, tổng tải sử dụng sẽ tăngvọt do chuyển mạch vượt quá định mứccủa thanh nguồn và gây mất điện dâychuyền bên trong tủ rack.

Bên cạnh đó, sự ra đời của các thiếtbị điện mật độ cao 1U và máy chủ phiếnmới khiến nguồn điện ba pha đượcdùng phổ biến cho mỗi tủ rack. Quy luậtcung cấp điện sẽ tương tự cho mỗi pha,với một pha quá tải sẽ làm ngắt mạch cảba pha. Do đó, nếu một pha bất kỳ vượtquá mức 40% dòng điện định mức củamạch nhánh, hệ thống điện có thể mấtkhả năng dự phòng và kéo theo nhữngsự cố mất điện liên tiếp. Cách duy nhấtđể tránh sự cố này là giám sát hệ thốngtheo thời gian thực từng mạch nhánh vàcài đặt cảnh báo khi có nguy cơ quá tải.

2. Hệ thống pin ( acquy )

Các sự cố mất điện phổ biến nhất cấp độ vĩ mô TTDL thường bắt nguồn từ hệthống pin của UPS, đặc biệt trong các hạtầng nhỏ chỉ có một hệ thống UPS vớimột chuỗi pin duy nhất. Một số hệ thốngUPS dạng mô-đun mới sẽ được trangbị pin dạng mô-đun để giảm thiểu các“đơn điểm gây lỗi”.

Một cải tiến thường được sử dụng đểnâng cao độ tin cậy pin trong TTDL làcung cấp cho hệ thống UPS với hai hoặcnhiều chuỗi pin được mắc song song.Tuy nhiên, nếu một trong các chuỗi cóvấn đề, các chuỗi còn lại cũng sẽ bị ảnhhưởng theo. Rất khó để xác định khảnăng hoạt động thực tế của pin trừ khibạn có hệ thống giám sát đi kèm hoặc thường xuyên kiểm tra tải theo lịch trình.Nếu không, bạn sẽ không nhận ra vấnđề cho đến lúc có sự cố phát sinh, và hệthống pin vẫn đang hỗ trợ tải hiện tại có thể trở thành nguyên nhân gây mất điện trong tương lai.

Pin luôn cần được bảo trì, kiểm travà thay thế thường xuyên hơn mọi thànhphần điện khác. Nhưng thực tế, trừ khicó ngân sách phân bổ sẵn, nếu không,việc này thường bị trì hoãn hoặc bỏ qua.Để tiết kiệm, doanh nghiệp có thể chỉthay một chuỗi pin bị yếu. Việc thay các chuỗi pin theo thời điểm khác nhau có thể chấp nhận được, miễn chúng không trực tiếp nối chung trên nguồn DC của hệ thống UPS

Một thiết kế lý tưởng sẽ gồm cácchuỗi pin độc lập, mỗi chuỗi được kếtnối riêng tới một mô-đun UPS. Khiđược cấu hình như vậy, một chuỗi pinbị hư hỏng sẽ không ảnh hưởng đến cácchuỗi pin khác. Ví dụ: Ta có bốn mô-đunUPS, mỗi mô-đun có chuỗi pin riêngvà được thiết kế theo tiêu chuẩn Tier 2.Khi một chuỗi pin bị hư hỏng, ba chuỗipin tương ứng với ba UPS còn lại vẫnhoạt động bình thường để duy trì tải màkhông bị ảnh hưởng do chúng được đấunối độc lập với nhau.

Về lý thuyết, TTDL được thiết kế tínhtoán đầy đủ các tác động như trên sẽkhông gặp sự cố thời gian chết, trừ khicó lỗi do con người gây ra. Nhược điểmcủa cấu hình này là hiệu suất hệ thốngUPS rất thấp. Ở điều kiện thường, mỗi UPS sẽ hoạt động ở mức tải nhỏ (< 37%).Ở mức tải này, những UPS lâu đời sẽhoạt động với hiệu suất rất thấp (< 75%)so với mức 85 – 90% của những UPShiện nay. Tuy vậy, nhiều TTDL vẫn chấpnhận mức hiệu suất thấp này vì thay thếmới hệ thống UPS hiện đại sẽ rất rắc rốivà tốn kém. Điều này dẫn đến hao phímột lượng điện năng rất lớn, ảnh hưởngtrực tiếp đến lợi nhuận của TTDL và cảcác tác động xấu đến môi trường.

Hiệu quả năng lượng và khả năng dự phòng

Trong các môi trường TTDL xanh hiện nay, khả năng dự phòng luôn được đề cập cùng với hiệu quả năng lượng. Tier1 là hệ thống có hiệu quả năng lượng tốt nhất nhưng không có khả năng dự phòng. Ngược lại, Tier 4 là thiết kế cókhả năng dự phòng cao nhất với hao phíđiện năng lớn do sử dụng nhiều thiết bịđiện. Ngày nay, hầu hết doanh nghiệpvẫn thường chọn yếu tố dự phòng đểđảm bảo TTDL không bị mất điện, và chỉcó một số ít xem yếu tố “xanh” là quan trọng hơn.

Về lâu dài, nhu cầu điện sẽ tăng cao.Việc sử dụng nhiều thiết bị CNTT cóhiệu quả năng lượng cao được kỳ vọngsẽ làm chậm nhu cầu đang tăng nhanhnày, đồng thời vẫn đảm bảo công suấtvà khả năng mở rộng cho hệ thống. Nếubỏ qua những giải pháp tăng hiệu quảnăng lượng, công suất hệ thống sẽ rấtnhanh chạm đến ngưỡng tối đa, buộc nhà đầu tư phải xây dựng hoặc nâng cấpTTDL gây tốn kém nhiều thời gian và chiphí.

Vấn đề công suất thiết kế

Khi thiết kế một TTDL, vấn đề về côngsuất thiết kế luôn được quan tâm đầutiên. Dựa trên vòng đời dự kiến và nhucầu sử dụng của TTDL mà người thiếtkế sẽ tính toán công suất là bao nhiêu.Với TTDL doanh nghiệp, các bản thiết kếphải đánh giá được công suất hiện có và kế hoạch phát triển trong tương lai, bao gồm cả số lượng tủ rack và nhu cầu điện dự phòng.

Đối với TTDL cho thuê, công suất thiết kế sẽ được tính toán dựa trên nhucầu khách hàng. Trong quá khứ, các cơ sở mới thường được xây dựng với kích thước và công suất tối đa. Khi đưa vào hoạt động, doanh nghiệp không sử dụnghết công suất gây lãng phí diện tích và điện năng. Trước sự cạnh tranh ngày càng tăng hiện nay, nhiều TTDL mới được xây dựng theo kiểu mô-đun đểgiảm chi phí ban đầu. Xây dựng TTDL theo kiểu mô-đun cũng cho phép tận dụng tối đa hiệu suất UPS và hệ thống làm mát, giúp các thiết bị hoạt động hiệu quả hơn và dễ dàng mở rộng mức công suất khi cần.

Nguyên nhân cốt lõi gâymất điện TTDL

Cuối cùng, theo thống kê, không phải lỗiphần cứng mà chính con người là nguyênnhân chủ yếu gây mất điện TTDL. Tronghầu hết trường hợp, mất điện trong TTDLcó thể được truy lại từ những hạn chếtrong bản thiết kế ban đầu, cách lựa chọnmức độ dự phòng hay việc phân bổ ngânsách không đầy đủ để tiến hành bảo trìđịnh kỳ. Việc dự đoán trước và tính toánchính xác công suất cũng như cấu hìnhcủa hệ thống điện sẽ tránh cho TTDL gặpphải những sự cố mất điện đáng tiếc.

Dịch bởi Bùi Tiến Lợi (Tầm Nhìn Mạng)

Nguồn : Searchdatacenter