Allion Labs / Blake Chu
昨今主流のSSDは、従来の2.5インチSATA SSDから半分以下のサイズのM.2 NVMe SSDに進化しました。サイズが小さくなって、速度が大幅に向上し遅延も少なくなることから、小型SSDは車載システムや将来の5Gアーキテクチャシステムのアプリケーション等、幅広い用途での応用が期待されています。NANDフラッシュはSSD内部のデータストレージコンポーネントで、データストレージが影響を受ける要因として、一般的には、消去回数(PE/サイクル)がありますが、他にも温度が一つとして考えられます。極端な条件下で使用した場合、長時間の異なる温度変化もNANDフラッシュのデータ保持(Data Retention)に影響します。これらの2つの要因がSSDデータのストレージに影響を与える原因について、NANDフラッシュの基本原理から簡単にご説明します。
NANDフラッシュ基本操作の主な3つのアクション:書き込み、読み取り、削除
- 書き込み:データは電子形式(electrical charge)でNANDフラッシュに保存されます。保存された電子の高電位と低電位は、Control Gateに加えられる電圧に依存します(図1)。Control Gateに正の電圧が加えられると、電子は最初の絶縁体を通してFloating Gate内に転送されます。Floating Gateに陰電子が注入されると、ビットで1が0になり書き込むことができます。
- 読み取り:データを読み取るときは、同様にControl Gateに電圧を加えてFloating Gate内の電子を吸収し、電流を利用してFloating Gate内の電子数を検出します。検出された電子の数は二進法の0と1に変換され、最終的にデータが出力され読み取ることができます。
- 削除:コントロールゲートに負の電圧が加えられると、電子はFloating Gateの外に移動し、陰電子がFloating Gateから除去されると、ビットが0から1へと戻り、消去することができます。
図1
読み取りと削除を繰り返すうちに、電子が複数回通過すると漏電が発生します。つまり、電子がFloating Gateで維持できなくなり、データエラーが発生します。この様な事象はウエハー製造プロセス(MLC-> TLC)でも増加し、フィルム層が薄くなるほど、通過に耐え得る電子の数も少なくなります。一方で、高温下のSSDは電子の動作に影響を受け、データが正しく保存されなくなります。 上記の状況に対して、JEDEC半導体技術協会は、一般顧客及び企業向けに温度仕様を設定し(図2)、SSDデータストレージに対する温度の影響を過小評価できないことを示しました。
図2:JEDEC半導体技術協会より策定されたSSDデータストレージの温度範囲
SSD高温テストケース分析
車載用や産業用でも利用されるSSDは、特にデータストレージ容量と高温下(遅延時間等(Latency))でその機能とパフォーマンスを維持できるかどうかが注目されています。アリオンは、温度がSSDのデータ保持(Data Retention)に影響を与えるかどうかを考察するため、市販されている4つの一般的なM.2 NVMe SSDを選び長時間高温テストを実施し、これらの長時間高温下のSSDの状況をモニタリングしました。
テストを行う前に、これらのSSDを一定期間使用し、大量のデータを書き込むなどして(書き込まれたデータの内容はJEDEC半導体技術協会の仕様に基づいています)、全て同じ条件にしています。SSDの状態とSMART(Self-Monitoring Analysis and Reporting Technology)が正常であることを確認した後、SSDの電源を切りオーブンに入れ、4つの異なるベイク時間と温度を設定してテストを行いました。指定した長時間の温度テストが完了し、オーブンからSSDを取り出し、最後にテスト装置でSSD SMART検査とフルディスク読み取り検査を実行しました。(図3)
図3:テスト設備のイメージ
フェーズ0: 40℃ / 24時間
テストの第1段階では、40℃の常温で4つのSSDのステータスを確認し、これらを基準値としてその後の高温テストと比較しました。 図4から、40℃ / 24時間後、フルディスク読み取り検査において4つのSSDの実行時間に大きな違いはなかったものの、SSD Aの実行時間は他の3つに比べ長くなっています。
図4:40℃ / 24時間における各SSDのフルディスク読み取り検査の実行時間
図5:40℃ / 24時間におけるフルディスク読み取り検査のコマンドに対する応答時間の割合
(ランクAは応答遅延が0.5mSec以下であることを、ランクDは応答遅延が10mSec以上であることを表しています。ランクA・Bに集中しているものは低遅延で良品であると言える)
フェーズ1: 125℃ / 24時間
テストの第2段階では、高温状態(125℃)でSSDを24時間連続でベイクして、125℃の高温がSSDに影響を与えるかどうかを観察しました。図6より、125℃ / 24時間後、SSD AとSSD Bでフルディスク読み取り検査での実行時間がフェーズ0と比較し、長くなっていることが分かります。特に、SSD Aは大幅に実行時間が長くなっています。この結果からSSD Aは高温により最も影響を受けていることが分かります。
フルディスク読み取り検査のコマンドに対する応答時間の割合(図7)を見ると、SSD AはランクC・Dレベルの遅延も多くなりはじめています。またSSD BもランクDレベルの遅延がわずかながら出始めています。SSD C及びDには明らかな影響は出ておらず、また、これまでのところ、4つのSSDでSMARTエラー(SMART error)またはコマンドエラーは発生していません。
図6:125℃ / 24時間における各SSDのフルディスク読み取り検査の実行時間
図7:125℃ / 24時間におけるフルディスク読み取り検査のコマンドに対する応答時間の割合
フェーズ2: 125℃ / 120時間
フェーズ2では温度はフェーズ1と同様125℃で、時間を5倍の120時間にしました。図8から125℃ / 120時間では、高温のため4つのSSDすべてで、フルディスク読み取り検査の実行時間が長くなっていることが判明しました。特にSSD Aは5時間近くかかっています。
フルディスク読み取り検査のコマンドに対する応答時間の割合(図9)を見ると、SSD AはランクDに相当する10msec以上の遅延の割合もかなり増えてきています。同じ温度で24時間のフェーズ1のランクDデータと比較しても、12倍強にも増えています。さらにSSD B、SSD DもランクB以上の遅延が出始め、応答時間が長くなってきていることがわかります。
このテストフェーズでは、SSD Cだけは全く影響を受けず問題が出ていません。また、SMARTエラーまたはコマンドエラーはどのSSDでも発生していません。
図8:125℃ / 120時間における各SSDのフルディスク読み取り検査の実行時間
図9:125℃ / 120時間におけるフルディスク読み取り検査のコマンドに対する応答時間の割合
ファイナルフェーズ: 150℃ / 168時間
ここまでの3つのテスト結果では、いずれのSSDでもSMARTエラーは発生していないものの、2つのSSDで大幅な遅延が発生し、パフォーマンスが大幅に低下していることがわかりました。最後のテストでは温度を150度に上げ、時間を7倍に延長して合計168時間とし、極端な条件下でこれら4つのSSDに起こる事象を観察しました。
テスト結果(図10)から、SSD B以外の3つのSSDは、このテストで致命的な問題が発生したことがわかります。SSD Aは、フルディスク読み取り検査で、全く正常に読み取ることができない他、SSDファームウェアレポートにSMARTエラーも表示されました。SSD CおよびSSD Dは、フルディスク読み取り検査後、ある程度は読み取りができましたが、しばらくするとエラーが出て読み取りを完了できず、SSDファームウェアレポートにSMARTエラーが表示されました。SSD Bだけがフルディスク読み取り検査を完了できました。SSD A・C・Dは、いずれもフルディスク読み取り検査プロセス中にコマンドエラーが発生し、SSD BだけSMARTエラーもコマンドエラー発生しませんでした。
図10:150℃ / 168時間における
テスト結果のまとめ
以上のテストにより、長時間の温度上昇に伴い、一部のSSDではディスクの読み取りに影響が出ることが分かりました。一般的にはランクAを一番よくSSD性能の基準値として用います。SSD Cは125℃まではディスク読み取りに全く影響がなかったのにも関わらず、ファイナルフェーズの150℃ではSMARTエラーが発生しました。一方、SSD Bは、フェーズ1でもランクDレベルの遅延が出ていたのにも関わらず、ファイナルフェーズで唯一、フルディスク読み取り検査を正常に行うことができました。
図9:ランクAを基準値としての比較表
結論
長時間の高温テストを行った結果、ほとんどのSSDはデータ保存に問題が発生しましたが、影響があまりないSSDも存在することがわかりました。このテストケース以外にも、アリオンはお客様のニーズに応じて温度/時間をカスタマイズして段階的に設定し、製品の限界点をすばやく見つけることができます。また、提供される詳細なテストレポートから製品の弱点を改善し、市場の競争力強化をサポートします。