安定した拡散のためにGPUが必要ですか? PCガイド、安定した拡散ベンチマーク:どのGPUがAI最速(更新)を実行するか|トムSハードウェア
0安定した拡散ベンチマーク:どのGPUがAIが最速で実行される(更新)
他の理論的な計算パフォーマンス数にすぐに到達しますが、再びRTX 2080 TiおよびRTX 3070 Tiを例として考えてみましょう。. 2080 TIテンソルコアはスパースをサポートせず、最大108 TFLOPSのFP16コンピューティングを持っています. RTX 3070 TIは、スパースなしで174 TFLOPSのFP16、つまり87 TFLOPS FP16でスパースをサポートしています. 2080 TIが3070 TIを打ち負かすという事実は、スパースが要因ではないことを明確に示しています. 同じロジックは、2060と3050、または2070 Superおよび3060 Tiなどの他の比較に適用されます.
安定した拡散のためにGPUが必要ですか?
安定した拡散のためにGPUが必要かどうか疑問に思っていますか? あなたは正しい場所に来ました.
安定した拡散は、間違いなくDall-EやMidjourneyのような高速で直感的なAIアート生成ツールです. その結果は印象的なので、現在何百万人ものユーザーがいます. ただし、PCで使用する場合は、特にグラフィックカードに関しては要件が満たされていることを確認してください. そういえば、安定した拡散がGPUなしで機能する可能性があるかどうか、または適切に機能するためにグラフィックカードが必要かどうかについて話します.
GPU、またはグラフィックカードは、ゲームや創造的なプロフェッショナルエクスペリエンスを真剣にアップグレードする小さなテクノロジーです. 彼らは、より商業的または職業的なレベルでAI生成されたアートを作成するために不可欠です.
必須のAIツール
排他的な取引10,000無料ボーナスクレジット
オンブランドAIコンテンツはどこでも作成します. Jasperで実際のコンテンツを作成する100,000人以上の顧客. 1つのAIツール、すべての最高のモデル.
プレミアムの結果を数秒で提供するAIコンテンツジェネレーターのフルパワーを体験する. . 無料トライアルにサインアップしてください. 続きを読む
たったの$ 0.単語あたり00015!
ウィンストンAI検出器
Winston AI:最も信頼できるAI検出器. Winston AIは、CHATGPT、GPT-4、BARD、BING CHAT、CLAUDE、およびその他のLLMSで生成されたAIコンテンツのチェックを支援する業界をリードするAIコンテンツ検出ツールです。. 続きを読む
たったの$ 0.100ワードあたり01
独創性AI検出器
独創.AIは最も正確なAI検出です.1200のデータサンプルのテストデータセット全体で96%の精度を達成しましたが、その最も近い競合他社は35%しか達成しませんでした. 便利なクロム拡張. 電子メール、Googleドキュメント、Webサイト全体で検出します. 続きを読む
*価格は変更される可能性があります. PCガイドは読者がサポートしています. 私たちのサイトでリンクを購入すると、アフィリエイト委員会を獲得する場合があります. もっと詳しく知る
? または、一方を他方を交換できます? 確認してみましょう.
安定した拡散に必要なGPUです?
はい、問題なく安定した拡散がスムーズに機能するには、PCにGPUが必要です. 最小限は、8〜10 GBのNvidiaモデルを見てください. さらに、不安定性を回避するために、PCシステムに16 GBのPC RAMがあることを確認してください.
GPUは、応答速度が遅いような問題にぶつかることなく、安定した拡散を実行します. 安定した拡散がグラフィックカードでのみ最もよく実行されると言うことは間違っていません. どのGPUを使用するかについては、最良の結果を得るために16または24 GB VRAMを備えたNVIDIA RTX 4080および4090モデルをお勧めします. これらは非常に強力なキットであり、スピーディなサービスを保証します.
AMD GPUで安定した拡散を実行することは可能ですか?
はい、NVIDIAシリーズモデルとは別に、AMD GPUで安定した拡散を実行できます. ただし、AMDを使用するには、RX470の上にモデルがあることを確認してください. さらに、最良の結果を得るには、不便を避けるためにさらに8GB以上を確保してください.
FAQ
Apple Macプロセッサで安定した拡散作業を行うことができます?
はい、安定した拡散はApple Macの本をサポートしています. ただし、シリコンベースのM1およびM1の最新モデルのみをサポートしています. それ以前のモデルは最良の結果ではありません. 古いM1およびM2モデルでさえ、要件を満たす場合は問題ありません.
結論
GPUを持つことは、今日の技術の世界では必須の要件です. GPUまたはその他のグラフィカルなサポートの最新かつ最速のモデルを用意してください. したがって、安定した拡散の場合、GPUを使用することが最善です. GPUなしでそれを実行する方法はいくつかありますが、彼らは見た目ほど信頼できません. したがって、安定した拡散を実行する前に、良い結果を得る前に、良いグラフィックカードを持っているようにしてください.
グラフィックカードは、一般的にPCを最大限に活用するための良い考えです. 彼らはゲームと創造的な体験を10倍に改善します. どちらに行くかについてのアイデアが必要な場合は、ここで最高のグラフィックスカードのまとめをチェックしてください.
安定した拡散ベンチマーク:どのGPUがAIが最速で実行される(更新)
人工知能と深い学習は、貧弱なアドバイスを生み出しているチャット、自動運転車、AIの使用、AIからの医学的アドバイスなどで告発されているかどうかにかかわらず、常に見出しにあります。. これらのツールのほとんどは、トレーニング用に多くのハードウェアを備えた複雑なサーバーに依存していますが、推論を介してトレーニングされたネットワークを使用すると、グラフィックカードを使用してPCで実行できます。. しかし、AI推論を行うための消費者GPUはどれくらい速いですか?
最新のNvidia、AMD、さらにはIntel GPUで、人気のあるAIイメージ作成者である安定した拡散をベンチマークして、それらがどのように積み重なるかを確認しました. 偶然、自分のPCで安定した拡散を上げて実行しようとした場合、あなたはどれほど複雑なものか、または単純なものをいくつか持っているかもしれません! . 短い要約は、NvidiaのGPUがRoostを支配し、ほとんどのソフトウェアがCUDAやその他のNVIDIAツールセットを使用して設計されていることです. しかし、それは他のGPUで安定した拡散を実行できないという意味ではありません.
主にすべてのGPUで単一のパッケージが機能しなかったため、テストには3つの異なる安定した拡散プロジェクトを使用することになりました。. Nvidiaについては、自動1111のWebUIバージョンを選択しました。それは最高のパフォーマンスを発揮し、より多くの選択肢があり、走るのは簡単でした. AMD GPUはNODを使用してテストされました.AIのSharkバージョン – Nvidia GPUのパフォーマンスを確認しました(VulkanモードとCUDAモードの両方). 欠けている. IntelのアークGPUの実行を取得することは、サポートが不足しているため、もう少し困難でしたが、安定した拡散OpenVinoは私たちにいくつかを与えてくれました とても 基本機能.
免責事項が適切です. これらのツールのいずれもコーディングしませんでしたが、合理的に最適化されているように見える(Windowsの下)に簡単に実行できるものを探しました. NVIDIA 30シリーズのテストは、最適なパフォーマンスに近づいて抽出するのに適した仕事をしていると確信しています。特にXFORMERSが有効になっている場合は、パフォーマンスがさらに20%増加します(ただし、品質に影響を与える可能性のある精度が低下する場合). 一方、RTX 40シリーズの結果は最初は低かったが、George Sv8Arjはこの修正を提供し、Pytorch Cuda Dllsを交換するとパフォーマンスが健康的な後押しを与えました.
. うなずき.AIは、RDNA 2の「チューニング」モデルにまだ作業していることを知らせてください。. 最後に、Intel GPUでは、最終的なパフォーマンスがAMDオプションに適切に並んでいるように見えますが、実際にはレンダリングの時間はかなり長くなります。実際の生成タスクが始まるまで5〜10秒かかり、おそらく多くのことがかかりますそれを遅くする余分な背景のことが起こっています.
ソフトウェアプロジェクトの選択により、さまざまな安定した拡散モデルも使用しています. うなずき.AIのSharkバージョンはSD2を使用しています.1、自動1111およびOpenVinoはSD1を使用します.4(ただし、SD2を有効にすることは可能です.自動1111で1). 繰り返しますが、安定した拡散に関する内部知識があり、使用したものよりもうまく実行される可能性のあるさまざまなオープンソースプロジェクトを推奨したい場合は、コメントでお知らせください(またはJarredにメールしてください).
テストパラメーターはすべてのGPUで同じですが、Intelバージョンにはネガティブプロンプトオプションのオプションはありません(少なくとも、見つけることができませんでした). 上記のギャラリーは、Nvidia GPUの自動1111のWebUIを使用して生成され、解像度の出力が高くなりました(それには多くの時間がかかります, 多くの 完了するのが長い). 同じプロンプトですが、ベンチマークに使用した512×512の代わりに2048×1152をターゲットにしています. 選択した設定は、3つのSDプロジェクトすべてに取り組むために選択されたことに注意してください。スループットを改善できるいくつかのオプションは、自動1111のビルドでのみ利用可能ですが、それについては後で詳しく説明します. ここに関連する設定があります:
ポジティブプロンプト:
黙示録的なスチームパンクシティ、探検、映画、現実的、ハイパーディテール、フォトリアリスティックな詳細、体積光、(((焦点)))、広角、((明るい点灯))、(((植生)))、稲妻、ブドウ、破壊、荒廃、ワルトーン、遺跡
ネガティブプロンプト:
(((Blurry)))、((Foggy))、(((Dark)))、((Monochrome))、(((深さ)))))
ステップ:
100
分類器無料ガイダンス:
.0
サンプリングアルゴリズム:
いくつかのオイラーバリアント(自動1111の祖先、AMDのサメオイラー別々)
サンプリングアルゴリズムはパフォーマンスに大きく影響するようには見えませんが、出力に影響を与える可能性があります。. Automatic 1111はほとんどのオプションを提供しますが、Intel OpenVinoビルドでは選択肢がありません.
AMD RX 7000/6000シリーズ、NVIDIA RTX 40/30シリーズ、およびIntel Arc A-Series GPUのテストの結果を次に示します。. 各NVIDIA GPUには2つの結果があります。1つはデフォルトの計算モデル(遅くて黒)を使用し、Facebookのより高速な「XFormers」ライブラリ(より速く、緑)を使用して2つ目が使用しています。.
予想どおり、NvidiaのGPUは、AMDまたはIntelのものと比較して、膨大なマージンで優れたパフォーマンスを提供します. トーチのDLL修正が整った状態で、RTX 4090は、XFORMERSを使用したRTX 3090 Tiよりも50%多くのパフォーマンスを提供し、XFORMERSなしでは43%のパフォーマンスを提供します. 各画像を生成するにはわずか3秒かかり、RTX 4070 Tiでさえ3090 Tiを超えてきれいにすることができます(ただし、Xformersを無効にした場合はそうではありません).
3090から3050まで、Nvidia GPUのトップカードから物事がかなり一貫した方法で落ちます. 一方、AMDのRX 7900 XTXはRTX 3090 Ti(追加の再テスト後)を結び付け、RX 7900 XTはRTX 3080 Tiを結びます. 7900カードは非常によく見えますが、すべてのRTX 30シリーズカードがAMDのRX 6000シリーズ部品を破ることになります(今のところ). 最後に、Intel Arc GPUはほぼ最後になり、A770のみがRX 6600を上回ることができます. 矛盾についてもう少し話しましょう.
. うなずき.AIは、今後数日でRDNA 2のモデルを調整する必要があると述べています。. うなずきといえば.AIでは、そのプロジェクトを使用していくつかのNvidia GPUのテストを行いました。Vulkanモデルにより、Nvidiaカードは自動1111のビルドよりもかなり遅くなりました(15.52 IT/s 4090、13.31 4080、11.3090 Tiで41、および10.3090の76 – 最初に有効にする必要があるため、他のカードをテストできませんでした).
調整されたモデルを使用した7900カードのパフォーマンスに基づいて、Nvidiaカードやテンソルコアからどれだけ利益を得ることができるかについても興味があります。. 紙の上では、4090はRX 7900 XTXのパフォーマンスの5倍以上を持っています。.希少性を割引してもパフォーマンスの7倍. 実際には、現在の4090は、使用したバージョンを使用してXTXよりも約50%高速です(そして、より低い精度を省略した場合、それはわずか13%に低下します). その同じロジックは、IntelのARCカードにも適用されます.
IntelのARC GPUは現在、非常に残念な結果を提供します。特に、通常のFP32計算としてスループットを最大4倍に配信するFP16 XMX(Matrix)操作をサポートするため. 私たちは、私たちが使用した現在の安定した拡散OpenVinoプロジェクトも改善の余地を多く残していると思われます. ちなみに、ARC GPUでSDを実行しようとする場合は、 ‘stable_diffusion_engineを編集する必要があることに注意してください。.py ‘ファイルと「CPU」を「GPU」に変更します – それ以外の場合は、計算にグラフィックカードを使用せず、かなり時間がかかります.
全体として、指定されたバージョンを使用して、NVIDIAのRTX 40シリーズカードが最速の選択肢であり、7900カードが続き、次にRTX 30シリーズGPUが続きます. RX 6000シリーズはパフォーマンスが低く、アークGPUは一般的に貧弱に見えます. .
また、レガシーGPU、特にNvidiaのチューリングアーキテクチャ(RTX 20-およびGTX 16シリーズ)とAMDのRX 5000シリーズでいくつかのテストを実行しました。. RX 5600 XTが失敗したため、RX 5700でのテストが出発しました。GTX1660スーパーは十分に遅かったため. .
まず、RTX 2080 TIはRTX 3070 Tiを上回ることになります. それは通常起こりません、そしてゲームではバニラ3070でさえ元チャンピオンを破る傾向があります. さらに重要なことは、これらの数字は、アンペアアーキテクチャにおけるNvidiaの「スパース」の最適化がまったく使用されていないことを示唆しています。.
他の理論的な計算パフォーマンス数にすぐに到達しますが、再びRTX 2080 TiおよびRTX 3070 Tiを例として考えてみましょう。. 2080 TIテンソルコアはスパースをサポートせず、最大108 TFLOPSのFP16コンピューティングを持っています. RTX 3070 TIは、スパースなしで174 TFLOPSのFP16、つまり87 TFLOPS FP16でスパースをサポートしています. 2080 TIが3070 TIを打ち負かすという事実は、スパースが要因ではないことを明確に示しています. 同じロジックは、2060と3050、または2070 Superおよび3060 Tiなどの他の比較に適用されます.
AMDのRDNAカード、RX 5700 XTおよび5700については、パフォーマンスに大きなギャップがあります. 5700 XTは6650 XTのすぐ前に着陸しますが、6600の下に5700が着陸します. 紙の上では、XTカードは最大22%速くする必要があります. ただし、テストでは37%高速です. いずれにせよ、古いNavi 10 GPUのいずれも、最初の安定した拡散ベンチマークで特に実行されません.
最後に、紙の上のGTX 1660スーパーは、後者にテンソルコアを使用して、RTX 2060の理論的性能を約1/5にする必要があります. FP16でシェーダーパフォーマンスを使用すると(チューリングにはFP16シェーダーコードのスループットが2倍になります)、ギャップは22%の赤字に狭くなります. しかし、私たちのテストでは、GTX 1660スーパーはRTX 2060の速度の約1/10に過ぎません.
繰り返しますが、これらのプロジェクトのいずれかがどれほど最適化されているかは明確ではありません. また、これらのプロジェクトがNvidiaのテンソルコアやIntelのXMXコアのようなものを完全に活用しているかどうかは明らかではありません. そのため、さまざまなGPUの最大の理論的パフォーマンス(TFLOPS)を見るのは面白いと思いました. 次のチャートは、各GPUの理論的FP16パフォーマンス(最近のグラフィックカードのみを見る)を示しています。. Nvidiaの結果には希少性も含まれています。基本的には、マトリックス内の細胞の半分まで乗算をスキップする能力は、おそらく深い学習ワークロードでかなり頻繁に発生することです.
Nvidiaのこれらのテンソルコアは明らかにパンチを詰め込んでいます(灰色/黒いバーにはスパースがありません)。. たとえば、紙では、RTX 4090(FP16を使用)はRTX 3090 Tiよりも最大106%高速ですが、テストではXformersなしでは43%高速で、Xformersで50%高速でした。. また、使用した安定した拡散プロジェクト(Automatic 1111)がAda Lovelace GPUの新しいFP8命令を活用していないと仮定していることに注意してください。.
一方、アークGPUを見てください. それらのマトリックスコアは、rtx 3060 TiおよびRX 7900 XTXに同様のパフォーマンスを提供する必要があります。. 実際には、アークGPUはそれらのマークの近くにありません. RX 6600とRX 6600 XTの間の最速のA770 GPUSランド、A750はRX 6600のすぐ後ろにあり、A380はA750の約4分の1の速度です. そのため、予想されるパフォーマンスの約4分の1です。XMXコアが使用されていない場合は理にかなっています.
アークの内部比は正しく見えますが、. A380の理論的計算パフォーマンスはA750の約4分の1であり、それは現在安定した拡散性能の点で着地しています. おそらく、ARC GPUは計算にシェーダーを使用しており、完全精度のFP32モードで、いくつかの追加の最適化を逃しています.
気付くもう1つのことは、AMDのRX 7900 XTX/XTでの理論的計算がRX 6000シリーズと比較して大幅に改善されたことです。. うなずきとして、調整された6000シリーズモデルがギャップを閉じるかどうかを確認する必要があります.AIは、RDNA 2のパフォーマンスの2倍の改善を期待していると言いました. メモリ帯域幅は重要な要因ではありませんでした。少なくとも使用した512×512のターゲット解像度では、3080 10GBと12GBモデルが比較的近くに着陸します。.
これは、理論的なFP16パフォーマンスの別の見方です。今回は、さまざまなGPUがシェーダー計算を介してできることのみに焦点を当てています. NvidiaのアンペアおよびADAアーキテクチャは、FP16がテンソルコアを使用するようにFP16をコーディングできるため、FP32と同じ速度でFP16を実行します。. 対照的にAMDとIntel GPUはFP16シェーダー計算でFP32と比較して2倍のパフォーマンスを持っています.
明らかに、FP16コンピューティングのこの2番目の外観は、テンソルコアとマトリックスコアを使用したチャートよりも実際のパフォーマンスとは一致しませんが、おそらくマトリックス計算のセットアップにはさらに複雑さがあるため、完全なパフォーマンスには必要があります。. 何か余分なもの. これにより、最後のチャートが1つあります.
この最終チャートは、高解像度テストの結果を示しています. AMD RX 6000シリーズカードでLinuxを使用する必要があり、RX 7000シリーズには新しいLinuxカーネルが必要であり、機能することができなかったため、新しいAMD GPUをテストしませんでした。. ただし、RTX 40シリーズの結果をチェックしてください。トーチDLLを交換してください.
RTX 4090は、Xformersのない3090 Tiよりも72%高速であり、Xformersでなんと134%高速になります. 4080はまた、Xformersで3090 Tiを55%/18%で打ち負かします. 4070 Tiは興味深いことに、Xformersのない3090 Tiよりも22%遅かったが、Xformersで20%速い.
2048×1152のより複雑なターゲット解像度は、潜在的な計算リソースをより良く利用し始めたようです。おそらく、走行時間が長いことは、テンソルコアが筋肉を完全に屈かすことができることを意味するようです。.
最終的に、これはせいぜい安定した拡散性能の時のスナップショットです. 頻繁にプロジェクトの更新、さまざまなトレーニングライブラリのサポートなどがあります. このトピックを今年にさらに再検討することについて詳しく説明します。.
最先端にとどまります
. CPU、GPU、AI、メーカーハードウェアなどの速報と詳細なレビューを受信トレイに送信します.
お客様の情報を送信することにより、条件とプライバシーポリシーに同意し、16歳以上になります.
Jarred Waltonは、すべてのGPUに焦点を当てたTomのハードウェアのシニアエディターです. 彼は2004年からハイテクジャーナリストとして働いており、AnandTech、Maximum PC、およびPC Gamerのために執筆しています. 最初のS3 Virge ‘3D Decelerators’から今日のGPUまで、Jarredはすべての最新のグラフィックストレンドに耐え、ゲームのパフォーマンスについて尋ねるものです。.