Những sợi cáp 'nuôi sống' AI trong trung tâm dữ liệu của Nvidia, xAI, OpenAI

Những sợi cáp này là 'mạch máu' của cuộc cách mạng AI (trí tuệ nhân tạo) dù không được nhiều người biết đến.

Hàng vạn GPU (bộ xử lý đồ họa) trong trung tâm dữ liệu phải phối hợp chặt chẽ như siêu máy tính để phục vụ các mô hình AI ngày càng tiên tiến.

Để làm được điều đó, hệ thống cáp kết nối bên trong trung tâm dữ liệu, gồm cáp quang, cáp đồng, đầu nối và bộ chuyển đổi, đóng vai trò như “mạch máu” đưa dữ liệu đi khắp nơi với băng thông cực lớn và độ trễ cực thấp.

Hàng dài các tủ máy chủ trong trung tâm dữ liệu AI.

Hàng dài các tủ máy chủ trong trung tâm dữ liệu AI.

Mời bạn cùng tìm hiểu hệ thống cáp bên trong trung tâm dữ liệu, các công nghệ mới và thị trường cáp đang bùng nổ như thế nào.

Định dạng mạng trong trung tâm dữ liệu AI

Trong thời đại AI phát triển như vũ bão, các hãng công nghệ liên tục nâng cấp cơ sở hạ tầng bằng những trung tâm dữ liệu chứa hàng nghìn GPU cùng hoạt động như siêu máy tính khổng lồ. Theo các chuyên gia, mạng lưới bên trong trung tâm dữ liệu AI thường được chia làm hai tầng chính:

Mạng front-end (lớp trước): Đảm nhận các tác vụ thông thường như truy cập web, lưu trữ và ứng dụng. Tốc độ truyền giữa máy chủ và switch (bộ chuyển mạch mạng) ở tầng này thường đạt tốc độ từ 25 đến 100 Gbps (gigabit mỗi giây).

Mạng back-end (lớp sau): Là “đường cao tốc” dành riêng cho GPU xử lý và huấn luyện mô hình AI. Đây là nơi phần lớn dữ liệu lớn được truyền đi giữa các máy chủ, với tốc độ cổng từ 400 đến 800 Gbps (hoặc hơn) và độ trễ chỉ vài micro giây, giúp các GPU duy trì hiệu suất gần 100%.

Để tránh tắc nghẽn trong dòng dữ liệu khổng lồ này, mạng GPU thường được thiết kế theo các kiến trúc phức tạp, giúp mọi kết nối đều có đường đi song song và không bị nghẽn cổ chai.

Một máy chủ tiêu chuẩn có thể chứa 8 GPU hoặc hơn, mỗi GPU cần một cổng mạng riêng, cộng thêm vài cổng cho tầng front-end, tức là gấp 4 lần số cổng mạng so với máy chủ truyền thống. Điều này khiến số lượng sợi quang trong trung tâm dữ liệu AI tăng lên gấp 2 - 4 lần so với thông thường.

Vì yêu cầu băng thông cực cao, cáp đồng gần như bị loại bỏ ở tầng back-end. Thay vào đó, toàn bộ trung tâm được kết nối bằng sợi quang đơn mode, loại duy nhất đủ khả năng truyền dữ liệu ở tốc độ và độ trễ mà hệ thống AI đòi hỏi.

Sợi quang đơn mode là loại cáp quang chỉ cho phép ánh sáng truyền đi theo một đường duy nhất bên trong lõi sợi.

Sợi quang đa mode là loại cáp quang có lõi lớn cho phép nhiều tia sáng truyền đi đồng thời bên trong sợi. Mỗi tia sáng đi theo một đường khác nhau, phản xạ qua lại trong lõi, giống nhiều tia laser chạy song song trong một ống kính trong suốt.

Tại trung tâm dữ liệu Colossus của công ty khởi nghiệp xAI (do Elon Musk sáng lập và điều hành) ở thành phố Memphis (bang Tennessee, Mỹ), mỗi máy chủ GPU được trang bị 9 đường truyền quang 400GbE, tương đương 3,6 terabit/giây băng thông cho mỗi nút.

Hệ thống này sử dụng công nghệ 400GbE kết hợp với card mạng Nvidia BlueField-3 cho từng GPU, thay vì dựa vào hạ tầng InfiniBand truyền thống. Nhờ đó, toàn bộ các thành phần mạng, từ switch Nvidia Spectrum-X đến card mạng BlueField-3, được tối ưu để cân bằng tải, giảm tắc nghẽn và giúp hàng nghìn GPU có thể phối hợp nhịp nhàng như một khối thống nhất.

400GbE là chuẩn kết nối Ethernet cho phép truyền dữ liệu với tốc độ 400 Gbps.

Nvidia Spectrum-X là thiết bị điều phối mạng 400 Gbps - 800 Gbps, giúp hàng chục nghìn GPU giao tiếp với nhau nhanh, ổn định và ít độ trễ nhất có thể.

Cáp quang và cáp đồng: Vai trò và khác biệt

Hai loại cáp chính được sử dụng bên trong các trung tâm dữ liệu AI là cáp đồng và cáp quang, mỗi loại có vai trò riêng.

Cáp đồng (DAC/AEC) được đánh giá là bền, tiết kiệm điện và rẻ, song chỉ hoạt động hiệu quả ở khoảng cách rất ngắn là dưới 2m, vì tín hiệu điện sẽ nhanh chóng yếu đi khi truyền xa hơn. Do đó, cáp đồng thường chỉ dùng bên trong cùng một tủ máy (rack) hoặc giữa các máy chủ đặt sát nhau, chẳng hạn kết nối GPU - switch trong cùng cụm thiết bị.

Trái lại, cáp quang (đặc biệt là loại đơn mode) có thể truyền tín hiệu bằng ánh sáng đi xa hàng chục mét, thậm chí hàng trăm mét mà vẫn giữ được tốc độ cao. Nhờ vậy, nó được dùng để kết nối giữa các tủ máy chủ hoặc các dãy thiết bị cách nhau xa trong trung tâm dữ liệu.

Nhược điểm của cáp quang là tiêu tốn nhiều điện hơn vì phải dùng bộ phát laser ở cả hai đầu dây và dễ gặp lỗi nếu đầu nối bị bụi bẩn hoặc lệch nhẹ. Dù vậy, chỉ có cáp quang mới đủ khả năng đáp ứng băng thông khổng lồ và độ trễ cực thấp mà AI yêu cầu.

Các bó cáp quang vàng được bó gọn và rẽ nhánh đối xứng, dẫn đến các cổng quang trên bảng kết nối trong trung tâm dữ liệu của Nvidia - Ảnh: ServicePoint

Các bó cáp quang vàng được bó gọn và rẽ nhánh đối xứng, dẫn đến các cổng quang trên bảng kết nối trong trung tâm dữ liệu của Nvidia - Ảnh: ServicePoint

Trong thực tế, phần lớn các đường truyền chính giữa máy chủ và switch trong trung tâm dữ liệu AI ngày nay là cáp quang tích hợp sẵn bộ phát/nhận quang. Cáp đồng DAC/AEC chỉ được dùng cho các kết nối ngắn bên trong cụm máy.

Ví dụ, hệ thống máy chủ Nvidia DGX thường sử dụng cáp AOC 100 Gbps, 200 Gbps hoặc 400 Gbps để nối đến switch.

Kết cấu cáp và đầu nối chuyên biệt

Trong các trung tâm dữ liệu AI, hệ thống cáp cực kỳ phức tạp vì mật độ dây kết nối dày đặc. Để tránh việc hàng nghìn sợi cáp bị rối như “mì gói”, các hãng đã phát triển đầu nối MPO/MTP - có thể gom nhiều sợi quang vào chung một đầu.

Theo tiêu chuẩn phổ biến, mỗi đầu MPO/MTP có thể chứa 12, 24 hoặc 48 sợi quang, nhưng công nghệ mới nhất đã nâng con số đó lên 144 sợi chỉ trong một đầu nối duy nhất. Nhờ vậy, một đầu cáp có thể truyền dữ liệu qua hàng trăm sợi cùng lúc, giúp giảm số lượng dây, tiết kiệm không gian và tăng công suất truyền tải dữ liệu.

Đầu nối MPO/MTP giúp rút gọn đáng kể hệ thống dây và đảm bảo tín hiệu ổn định khi xử lý khối lượng dữ liệu khổng lồ, theo ServicePoint - công ty chuyên về giải pháp cáp quang.

Các bó cáp quang màu vàng được sắp xếp song song theo hàng và tầng, luồn qua khung kim loại để cố định vị trí trong trung tâm dữ liệu của Nvidia - Ảnh: ServicePoint

Các bó cáp quang màu vàng được sắp xếp song song theo hàng và tầng, luồn qua khung kim loại để cố định vị trí trong trung tâm dữ liệu của Nvidia - Ảnh: ServicePoint

Các trung tâm AI còn dùng những bó cáp cực lớn, chứa từ 144 - 288 sợi, thậm chí đường trục chính có thể lên tới 1.728 sợi quang. Những bó cáp khổng lồ này cần khung đỡ đặc biệt, panel nối MPO cao cấp và đội ngũ kỹ thuật viên phải cắt, đo và đánh dấu từng bó cáp chính xác tuyệt đối. Panel MPO là bảng kết nối trung gian giúp gom, tổ chức và quản lý các sợi cáp quang MPO/MTP trong trung tâm dữ liệu.

Tại trung tâm dữ liệu Colossus của xAI, mỗi bó cáp đều được “cắt đúng độ dài và đánh số riêng” để dễ kiểm soát và bảo trì.

Quản lý và kiểm tra hệ thống cáp

Quản lý cáp là một công đoạn quan trọng không kém lắp đặt phần cứng. Các bó cáp phải được xếp ngay ngắn, cố định bằng khay để đảm bảo luồng khí làm mát và dễ bảo dưỡng. Sau khi hoàn tất lắp đặt, các kỹ sư sẽ kiểm tra tín hiệu đường truyền bằng thiết bị đo chuyên dụng như OTDR để phát hiện lỗi hoặc điểm suy hao ánh sáng trên sợi cáp.

OTDR là thiết bị cực kỳ quan trọng trong việc kiểm tra và bảo trì cáp quang, đặc biệt trong các trung tâm dữ liệu AI nơi có hàng nghìn sợi quang chạy song song.

Theo khuyến nghị của ServicePoint, cần đo kiểm định kỳ các chỉ số như suy hao đầu nối và phản xạ tín hiệu nhằm đảm bảo chất lượng truyền dẫn ổn định. Bên cạnh đó, hệ thống cáp nên được bố trí gọn gàng trong ống hoặc máng riêng, vừa dễ quản lý, tránh rối, vừa giúp luồng khí làm mát lưu thông tốt hơn, hạn chế tình trạng nhiệt độ tăng cao trong trung tâm dữ liệu.

Cáp tốc độ cao và thiết bị mạng cho AI

Hiện nay, các loại cáp Ethernet tốc độ cao đã đạt tới 400 Gbps và 800 Gbps mỗi sợi, tương đương khả năng truyền hàng trăm gigabyte dữ liệu chỉ trong một giây.

Nvidia và Mellanox cũng cung cấp các loại cáp InfiniBand HDR 200 Gbps và NDR 400 Gbps dành cho siêu máy tính AI, hỗ trợ các giao thức RDMA qua Ethernet hoặc InfiniBand - cho phép GPU truyền dữ liệu trực tiếp cho nhau mà không cần CPU can thiệp, giúp giảm độ trễ và tăng hiệu năng huấn luyện.

RDMA (truy cập trực tiếp bộ nhớ từ xa) là “trái tim” giúp các GPU hoặc máy chủ trong trung tâm dữ liệu AI truyền dữ liệu cực nhanh mà không tắc nghẽn.

Tại trung tâm dữ liệu Colossus của xAI ở thành phố Memphis, mỗi máy chủ GPU được trang bị 9 cổng mạng quang 400 Gbps, tổng cộng khoảng 3,6 terabit/giây băng thông cho mỗi máy.

Toàn bộ hệ thống dùng switch Nvidia Spectrum-X và card mạng BlueField-3, có khả năng tự điều phối luồng dữ liệu và tránh nghẽn cổ chai, đảm bảo hàng nghìn GPU có thể phối hợp mượt mà như một “bộ não” duy nhất.

Cuộc đua của các hãng cáp trong kỷ nguyên AI

Sự bùng nổ của AI đang giúp ngành cáp toàn cầu bước vào thời kỳ tăng tốc chưa từng có. Để đáp ứng khối lượng dữ liệu khổng lồ giữa hàng vạn GPU trong các trung tâm dữ liệu AI, công nghệ cáp đang được cải tiến mạnh mẽ, từ sợi quang mỏng hơn, nhẹ hơn đến đầu nối và mô đun thế hệ mới.

Corning, hãng sản xuất cáp quang hàng đầu thế giới, đã giới thiệu dòng Contour Fiber với đường kính giảm 40%, giúp dễ lắp đặt hơn và tiết kiệm không gian trong tủ máy. Công ty Mỹ này cũng phát triển đầu nối mới có khả năng kết nối gấp ba lần số sợi so với thế hệ cũ, tăng đáng kể mật độ truyền dữ liệu trong trung tâm dữ liệu.

Bên cạnh đó, ngành còn đang nghiên cứu các chuẩn cáp tiên tiến như:

OM5 cho phép truyền nhiều bước sóng ánh sáng trên cùng một sợi, nâng băng thông mà không cần thêm cáp.

Điện quang tích hợp chip - công nghệ đưa tín hiệu quang học trực tiếp vào chip, giúp giảm tiêu thụ điện năng và độ trễ truyền dữ liệu.

Theo báo cáo của CRU Group, nhu cầu cáp quang phục vụ AI tăng 138% vào năm 2024 và dự kiến tăng thêm khoảng 80% trong 2025. Phân khúc trung tâm dữ liệu AI hiện là động lực tăng trưởng mạnh nhất của toàn ngành cáp, tăng hơn 137% trong năm 2024 so với 2023, và sẽ còn vượt xa các lĩnh vực khác như viễn thông hay internet truyền thống trong năm tới.

CRU Group là tổ chức tư vấn và nghiên cứu thị trường toàn cầu có trụ sở tại London (thủ đô Anh), chuyên cung cấp dữ liệu, phân tích và dự báo cho các ngành công nghiệp cơ bản, đặc biệt là kim loại, khai khoáng, vật liệu hạ tầng, năng lượng và hóa chất công nghiệp. Trong mảng cáp quang và hạ tầng số, CRU Group được xem là nguồn thống kê và dự báo đáng tin cậy hàng đầu thế giới, thường được các hãng lớn như Corning, Prysmian, Nokia, Meta, Nvidia trích dẫn khi nói về xu hướng nhu cầu cáp trong trung tâm dữ liệu, 5G và AI.

Những hãng dẫn dắt chuỗi cung ứng cáp cho AI

Corning (Mỹ), Fujikura và Sumitomo Electric (Nhật Bản), Prysmian (Ý) hay YOFC (Trung Quốc) vẫn chiếm phần lớn sản lượng cáp sợi toàn cầu. Năm 2024, Corning đã ký hợp đồng cung cấp 10% sản lượng cáp thế hệ AI tạo sinh cho hãng viễn thông Lumen (Bắc Mỹ), với mục tiêu tăng gấp 2 - 4 lần số lượng sợi quang trong các ống dẫn hiện tại, phục vụ kết nối cho trung tâm dữ liệu AI quy mô lớn.

Không riêng các công ty cáp truyền thống, hãng công nghệ và đối tác hạ tầng cũng đang bước vào cuộc chơi.

Lumentum và Nokia đang phát triển công nghệ co-packaged optics, cho phép tích hợp linh kiện quang học trực tiếp vào trong chip xử lý, giúp truyền dữ liệu nhanh hơn và giảm tiêu thụ điện năng trong các trung tâm dữ liệu.

Amphenol, TE Connectivity, Molex, US Conec, Huber+Suhner chuyên sản xuất đầu nối MPO/MTP, mô đun quang và cáp nhiều sợi.

Mellanox và Nvidia mở rộng sang sản xuất card mạng quang tốc độ 400 - 800 Gbps.

Thậm chí các công ty nhỏ như NADDOD, chuyên bán cáp AOC InfiniBand, cũng đang hưởng lợi lớn từ làn sóng đầu tư vào AI.

Đầu tư trung tâm dữ liệu kéo theo cơn khát cáp quang

Theo CRU Group, chi tiêu xây dựng trung tâm dữ liệu tại Mỹ đã tăng hơn 210% giai đoạn 2019 - 2024 và AI là nguyên nhân chính. Càng nhiều cụm GPU được triển khai, càng nhiều sợi cáp quang phải được lắp đặt để đảm bảo các máy có thể “trò chuyện” với nhau ở tốc độ ánh sáng.

Dự báo trong 5 năm tới, thị trường cáp quang dành cho trung tâm dữ liệu sẽ tiếp tục tăng trưởng hơn 20% mỗi năm, tập trung vào các chuẩn tốc độ cao 400 Gbps và 800 Gbps, cùng công nghệ điện quang tích hợp chip và OM5.

Sự hợp tác giữa các hãng công nghệ lớn và nhà mạng viễn thông, chẳng hạn Microsoft hợp tác với Lumen hay Corning bắt tay cùng Lumen, đang tạo nên chuỗi cung ứng cáp quang chuyên biệt cho AI.

Những sợi cáp “nuôi sống” AI của thế giới

Nếu nối liền toàn bộ số cáp đồng và cáp quang trong các trung tâm dữ liệu AI ngày nay, chiều dài của chúng sẽ lên đến hàng nghìn km. Từ đầu nối MPO/MTP chứa hàng trăm sợi quang đến các loại cáp siêu mảnh Corning Contour hay những switch 400 Gbps và card mạng Nvidia BlueField, tất cả cùng hoạt động để dữ liệu di chuyển trơn tru giữa hàng nghìn GPU và cụm máy chủ.

Các hãng đang không ngừng cải tiến, từ việc nghiên cứu cáp rỗng ruột đến công nghệ quang học tích hợp chip, nhằm đảm bảo hạ tầng đủ nhanh, đủ mạnh khi AI tiến tới quy mô ngày càng lớn hơn.

Chẳng hạn, OpenAI dự kiến triển khai hạ tầng 10 gigawatt GPU của Nvidia, tương đương hàng triệu GPU. Ở quy mô này, trung tâm dữ liệu AI cần nhiều sợi cáp hơn rất nhiều lần so với thông thường.

Dù thị trường cáp hiện vẫn còn phân mảnh với nhiều tên tuổi lớn nhỏ, tất cả đều đang tăng tốc sản xuất để theo kịp làn sóng xây dựng trung tâm dữ liệu AI trên toàn cầu.

Trong tương lai gần, các trung tâm AI sẽ ngày càng đồ sộ, kéo theo nhu cầu nhiều cáp hơn và tốc độ cao hơn, song nền tảng cốt lõi vẫn không đổi: Chính những sợi cáp ấy sẽ tiếp tục “nuôi sống” AI của thế giới.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/nhung-soi-cap-nuoi-song-ai-trong-trung-tam-du-lieu-cua-nvidia-xai-openai-240211.html