Allion Labs 

前回の記事では、サーバーの冷却効果がシステムの安定性に非常に重要であることに触れ、冷却効果に対してアリオンが提供するサポートとサービスについて説明しました。

今回は、アリオンの評価方法を詳しく説明するとともに、テストで発見された問題と改善されたデータについても、具体的な例を挙げて説明します。

AIサーバーの冷却構造にある3つの重要なポイント:

1. GPUエアガイド:異なるGPUエアガイド構造を試し、サーバーの吸気量を集中させ、GPUの冷却効果を高めます。

2. GPUトレイ:GPUトレイの構造を変更し、出力面積の大きさがGPUの冷却に及ぼす影響の程度を検証します。

3. CPUエアガイド:CPUエアガイドの隙間を閉じて空気の流れを集中させ、CPUの冷却効果を検証します。

アリオンの専門家チームがまず現状をヒアリングし、実際に冷却構造を確認したうえで、温度監視用の熱電対ポイントの配置を行います。配置が完了したら、加圧プログラムの実行と温度データの収集を開始します。加圧プロセスには、さまざまな部品の加圧(例:GPUまたはCPU)や加圧の程度(例:30%〜100%)があります。同時にファンの回転速度を制御したり、人為的にファンに故障を発生させ、さまざまなシナリオをシミュレーションして関連データを収集して分析し、突発的な状況が発生しても、サーバーが冷却の安定性を維持できるようにします。

事例紹介

プロジェクトの一例を挙げると、アリオンは、このプロジェクトについて2つの冷却構造のデータ収集を試み、分析した結果、冷却構造1のパフォーマンスが想定通りだったことを確認しました。テスト結果は以下の図のとおりです。

データ収集の過程で、PSUの配置ポイントで熱電対データを収集したところ、温度の曲線が中心に近いほど温度が高くなるのではなく、2つのポイントが逆の状態を示すという異常な現象も発見しました。分析およびお客様との協議の結果、実際の原因は熱風の逆流によるものであり、発生場所はPSU近くのケース側面または隙間であることが判明しました。データ情報とその過程は以下のとおりです。

改善前PSU温度異常:中心に近いTemperature_2の温度が、外側のTemperature_1よりも低い

  • 可能な原因:機構設計による蓄熱/熱の逆流などの冷却問題が原因と考えられます。

改善後、システムのPSU温度は正常になりました:PSU中心のTemperature_3の温度 > 中心に近いTemperature_2の温度 > 外側のTemperature_1の温度

アリオンはサーバー冷却構造の評価サービスで豊富な経験と関連能力を持ち、お客様がさまざまな構造の評価と最適的な解決策を最短時間で選択できるようサポートできます。また、アリオンはさまざまな熱負荷を備えたウォークインチャンバーも構築しており、さまざまなタイプのサーバー冷却構造の評価にも対応することができます。

  1. 13KW Walk-in Chamber
    • 温度範囲:-20 ℃ ~ 80 ℃
  2. 20KW Walk-in Chamber
    • 温度範囲:-40 ℃ ~ 150 ℃
  3. 65KW Walk-in Chamber
    •温度範囲:-40 ℃ ~ 90 ℃

Faster、Easier、Better ― 最も信頼できるサーバー検証コンサルタント

アリオンはIT分野で30年以上のテスト検証経験を積み重ね、数千万もの検証データベースを構築してきました。包括的なスマートテストのアドバイスとその分析により、アリオンは総合的なテストソリューションを提供し、お客様が製品の品質を厳格に管理し、より短時間で、より正確な方法で製品品質を向上させるお手伝いをします。

Faster、Easier、Better ― アリオン株式会社 検証コンサルティングサービス

関連の検証テストサービスについてより詳しい情報をお求めの場合は、アリオンのお問い合わせフォームよりお気軽にご連絡ください。

お問い合わせ

Contact Us

あわせて読みたい