Allion Labs
32GT/sのPCIe 5.0製品が市場に登場したことで、高速演算とAI人工知能の効果が顕著になっています。特に生成AIがすぐに人々の日常生活に浸透し、次第に様々な産業で重要な役割を果たすと同時に、高速伝送へのニーズも増加しています。この影響からサーバー市場は持続的な成長を続け、サーバーの世代アップグレードサイクルも短縮しています。
こうした中、個別のサーバー運用環境に最適化した設計のニーズが拡大しています。カスタマイズしたサーバーを購入したお客様にとって、運用コストの削減できる利点がありますが、分散調達後のケース、マザーボード、ストレージデバイスなどの組み立てによるシステム安定性は懸念されます。
さらに、マザーボードに高速のPCIe 5.0技術が導入され始めると、このようなサーバーはより深刻な潜在リスクに直面する可能性が高いと考えられます。
ホワイトボックスサーバーに潜む5大リスク
1. 冷却効果の不均衡
PCIe 5.0をサポートするCPUのTDP(Thermal Design Power)は350W以上で、冷却要件が非常に高くなっています。マザーボードによってCPUの設計位置が異なり、ケース内のファンに完全に対応することができないため、CPUの冷却が均一にならない問題が発生する可能性があります。
図:テストイメージ
2. ファンの効果が薄い
CPUのTDPが350Wを超えると、通常は高速回転か高電流のファンを回して、十分な冷却要件を満たす必要があります。しかし、ケースメーカーが取り付けたファンのスペックが悪ければ、全体的な冷却効果が不足してシステムの温度が上昇し続け、演算やデータアクセスの速度に影響を及ぼし、システムが過熱してクラッシュする可能性さえあります。
3. ケーブル配置の最適化ができない
ケースとマザーボードを別々に購入すると、マザーボードのコネクタの位置がケース内に設計されたケーブルの配置と一致せず、冷却風の流れが悪化し、冷却効果が低下する可能性があります。このタイプのリスクを初期段階で発見することは困難です。
4. ケーブルの品質問題
高速のPCIe 5.0への移行に伴い、ケーブルの高周波特性要件が非常に高くなっています。通常ケースメーカーは高周波技術に精通していないため、配置されたケーブルの高周波特性が低いことで、システムの性能が低下する可能性があります。
5. 高周波バックプレート設計の課題
同様の状況により、別の潜在的な問題が引き起こされることがあります。ケースメーカーが高周波技術に精通していないため、ストレージデバイスのバックプレートの設計で非常に大きな課題に直面することがあります。Impedance mismatch、Insertion loss/Return lossの増加やクロストーク(Cross talk)などの問題が発生すると過剰な信号干渉を引き起こし、サーバーの性能とシステムの安定性を低下させます。
上記の潜在的なリスクにより、システム性能の大幅な低下やCPU寿命の短縮、システムが不安定になる可能性があるほか、さらに深刻な場合は、システムが再起動やシャットダウン、過熱クラッシュを繰り返してしまいます。これにより、サーバーの稼働状態が長時間にわたって不安定になったり、連携するサービスが中断したりする可能性があり、データの流失が発生する可能性さえあります。こうした問題は、ユーザーエクスペリエンスにネガティブな印象を与えて多くのクレームが発生する原因となり、結果的に業績や顧客数に影響を及ぼすだけでなく、ブランドの評判をも危険にさらすことになります。
ユーザー信頼性シミュレーションソリューション
アリオンはこれらの潜在的なリスクに向け、サーバーの出荷品質を保証するユーザー信頼性シミュレーションのソリューションを提供しています。
信頼性シミュレーションは、以下の4つの方向に基づいて策定・評価します。
アリオンは、サーバーハードウェアの動作温度の上限及び下限を参照して、その応用シナリオによる様々な高温および低温サイクルを策定し、サイクルの高温期間や低温期間におけるサーバーの動作状態を確認します。
またアリオンは、サーバーの用途を考慮して、例えば、高速演算サーバーに対してCPUとDDR負荷を強化したり、データストレージサーバーに対してストレージ負荷を強化するなど、負荷テストの項目や強度を策定します。負荷テストの検証サイクルごとに各部品の機能状態を再確認するとともに、結果ごとにレポートを詳細に記録し、サーバーの性能に異常な変化がないか比較します。
Faster, Easier, Better ― 最も信頼できる検証コンサルタント
アリオンは高周波・高速製品の関連エコシステムおよび応用シナリオに対し、充実した設備環境と豊富なプロジェクト経験を備え、より速く、より簡単、より良い高品質のコンサルティングサービスを提供することができます。
Faster
- -100℃〜+200℃の温度範囲を備えた、様々な温度チャンバーを各種取り揃えています。内部スペースが最大のステップ式のチャンバーには、3つの52Uラックを収容でき、最大65KWの熱負荷をサポートしています。
- 豊富なプロジェクト経験を持ち、最短時間でソリューションを策定・実行することができます。
Easier
- 信頼性シミュレーションのソリューションにより、わずか3〜5日で上記の潜在リスクを検証できます。莫大な費用や時間をかける必要はありません。
- 問題が判明すれば、アリオンは問題の特定、デバッグサポート、およびソリューションの提案を提供し、問題の迅速な特定・解決をサポートします。
Better
- アリオンのユーザー信頼性検証ソリューションでは、サーバーの寿命サイクル評価を提供することで、お客様はサーバーの動作寿命を予測し配置計画を立てることができます。
- アリオンはキーコンポーネントの品質に関する検査をサポートし、起こりうる潜在的なリスクを事前に防ぎ、発生確率を最小限に抑えることができます。
関連の検証テストサービスについてより詳しい情報をお求めの場合は、アリオンのお問い合わせフォームよりお気軽にご連絡ください。
- ユーザー信頼性検証:https://www.allion.co.jp/test-lab/user_reliability/
- サーバー検証サービス:https://www.allion.co.jp/server-validation/