Potřebuji GPU pro stabilní difúzi? PC PUDE, stabilní difúze benchmarked: Která GPU provozuje AI nejrychlejší (aktualizováno) | Tom S hardware
Stabilní difúze Benchmarked: Která GPU provozuje AI nejrychlejší (aktualizováno)
Za okamžik se dostaneme k některým dalším teoretickým číslem výpočetních výkonu, ale znovu zvažte RTX 2080 Ti a RTX 3070 Ti jako příklad. Tensorové jádra 2080 Ti nepodporují sparzitu a mají až 108 Tflops of FP16 Compute. RTX 3070 TI podporuje sparzitu s 174 tflops FP16, nebo 87 tflops FP16 bez sparsity. Skutečnost, že 2080 TI porazí 3070 Ti jasně naznačuje, že sparzita není faktor. Stejná logika platí pro další srovnání jako 2060 a 3050, nebo 2070 Super a 3060 Ti.
Potřebuji GPU pro stabilní difúzi?
Zajímá vás, zda potřebujete GPU pro stabilní difúzi? Přišli jste na správné místo.
Stabilní difúze je nepochybně rychlý a intuitivní nástroj pro generování uměleckého uměleckého uměleckého AI jako Dall-E a Midjourney. Jeho výsledky jsou působivé, takže právě teď má miliony uživatelů. Pokud však chcete použít na počítači, ujistěte se, že jsou splněny požadavky, zejména pokud jde o grafické karty. .
. Jsou nezbytné pro vytvoření umění generovaného AI na komerciji nebo profesionální úrovni.
Exkluzivní dohoda 10 000 bezplatných bonusových kreditů
Obsah AI na značce kdekoli vytvoříte. . Jeden nástroj AI, všechny nejlepší modely.
Zažijte plnou sílu generátoru obsahu AI, který přináší prémiové výsledky během sekund. 8 milionů uživatelů si užívá psaní blogů 10x rychlejší a bez námahy vytvářet vyšší přeměnu příspěvků na sociálních médiích nebo psaní více poutavých e -mailů. Zaregistrujte se na bezplatnou zkušební verzi. Přečtěte si více
.00015 za slovo!
. . Přečtěte si více
Pouze 0 $.01 na 100 slov
Originalita.AI je nejpřesnější detekce AI.V rámci souboru testovacích údajů 1200 vzorků dat dosáhl přesnosti 96%, zatímco jeho nejbližší konkurent dosáhl pouze 35%. Užitečné prodloužení chromu. .
*Ceny se mohou změnit. . .
? Nebo může nahradit druhý? .
Je GPU potřebný pro stabilní difúzi?
. Minimálně se podívejte na modely 8-10 GB NVIDIA. .
. Řeknout, že stabilní difúze běží výhradně na grafické kartě, by se nebylo špatně. . .
?
Ano, můžete také spustit stabilní difúzi na AMD GPU, kromě modelů řady NVIDIA. . Navíc pro nejlepší výsledky se ujistěte, že máte dalších 8 GB nebo vyšší, abyste se vyhnuli jakýmkoli nepříjemnostem.
Časté časté
Může stabilní difúzní práce na procesorech Apple Mac?
. . Jakýkoli model před tím není pro nejlepší výsledky. .
Mít GPU je v dnešním technologickém světě povinným požadavkem. . Proto je pro stabilní difúzi nejlepší mít GPU. I když existuje několik způsobů, jak to spustit bez GPU, nejsou tak spolehlivé, jak se mohou zdát. .
Grafická karta je také dobrý nápad obecně pro vytěžit maximum z vašeho počítače. . Pokud potřebujete nápady, na který z nich je třeba jít, podívejte se na naše kolo nejlepších grafických karet zde.
Stabilní difúze Benchmarked: Která GPU provozuje AI nejrychlejší (aktualizováno)
. Většina z těchto nástrojů se spoléhá na složité servery se spoustou hardwaru pro trénink, ale pomocí vyškolené sítě prostřednictvím inference lze provést na počítači pomocí jeho grafické karty. ?
. Pokud jste se náhodou pokusili získat stabilní difúzi a běžet na svém vlastním počítači! – to může být. Krátkým shrnutím je, že GPU NVIDIA vládne Roost, s většinou softwaru navrženého pomocí CUDA a dalších NVIDIA nástrojů. Ale to neznamená, že na ostatních GPU nemůžete běžet stabilní difúze.
Nakonec jsme pro naše testování používali tři různé stabilní difúzní projekty, hlavně proto, že na každém GPU žádný balíček nepracoval žádný balíček. . .. . Získání běhu GPU Intelů bylo o něco obtížnější, kvůli nedostatku podpory, ale stabilní difúze Openvino nám něco dala velmi základní funkce.
Zřeknutí se odpovědnosti jsou v pořádku. . . Výsledky řady RTX 40 mezitím byly zpočátku nižší, ale George Sv8arj poskytl tuto opravu, kde výměna Pytorch Cuda DLL poskytla zdravou podporu výkonu.
Výsledky AMD jsou také trochu smíšenou sáčkem: RDNA 3 GPU fungují velmi dobře, zatímco GPU RDNA 2 se zdají spíše průměrné. Kývnutí.AI dejte nám vědět, že stále pracují na „vyladěných“ modelech pro RDNA 2, což by mělo posílit výkon docela dost (potenciálně dvojnásobné), jakmile budou k dispozici. A konečně, na Intel GPU, i když se zdá, že se konečný výkon slušně spojuje s možnostmi AMD, v praxi je čas vykreslení podstatně delší – trvá 5–10 sekund, než se začne úkol skutečného generace, a pravděpodobně hodně Děje se další věci na pozadí, které to zpomalují.
. Kývnutí….. Opět, pokud máte nějaké vnitřní znalosti stabilní difúze a chcete doporučit různé projekty s otevřeným zdrojovým kódem, které mohou běžet lépe, než jsme použili, dejte nám vědět v komentářích (nebo jen pošlete e -mail na Jarred).
Naše testovací parametry jsou stejné pro všechny GPU, ačkoli neexistuje žádná možnost pro negativní výzvu ve verzi Intel (alespoň ne, že bychom mohli najít). , hodně déle dokončit). Je to stejné výzvy, ale zaměření na 2048×1152 namísto 512×512, které jsme použili pro naše benchmarky. Všimněte si, že nastavení, která jsme vybrali, byla vybrána pro práci na všech třech projektech SD; Některé možnosti, které mohou zlepšit propustnost, jsou k dispozici pouze při automatickém sestavení 1111, ale o tom více později. Zde jsou příslušná nastavení:
Pozitivní výzva:
Postapokalyptické město Steampunk, průzkum, filmové, realistické, hyper detailní, fotorealistické maximální detaily, objemové světlo, (((zaostření)), širokoúhlé (((jasně osvětlené))), (((vegetace)), Lightning), Lightning) , vinná réva, ničení, devastace, válečný, zřícenina
Negativní výzva:
(((rozmazané)), ((Foggy)), (((tmavá))), ((monochromatický)), slunce (((hloubka pole))))
100
Clasifier Free Pokyny:
15.0
Vzorkovací algoritmus:
Některá varianta Euler (předků na automatické 1111, Shark Euler diskrétní na AMD)
Zdá se, že algoritmus vzorkování neovlivňuje hlavně výkon, i když může ovlivnit výstup. .
Zde jsou výsledky z našeho testování řady AMD RX 7000/6000, NVIDIA RTX 40/30-Series a Intel Arc A-Series GPU. .
Jak se očekávalo, GPU NVIDIA poskytují vynikající výkon – někdy masivními okraji – ve srovnání s čímkoli od AMD nebo Intel. S opravami DLL pro pochodní na místě poskytuje RTX 4090 o 50% více výkonu než RTX 3090 Ti s Xformers a 43% lepší výkon bez Xformers. Vygenerování každého obrázku trvá něco přes tři sekundy a dokonce i RTX 4070 Ti je schopen zavrhnout kolem 3090 Ti (ale ne, pokud zakážete Xformers).
Věci spadnou docela konzistentním způsobem z nejlepších karet pro GPU Nvidia, od 3090 do 3050. Mezitím AMD RX 7900 XTX spojuje RTX 3090 Ti (po dalším opakování), zatímco Rx 7900 xt spojuje RTX 3080 Ti. 7900 karet vypadá docela dobře, zatímco každá karta řady RTX 30 končí tím, že porazí části řady RX 6000 AMD (prozatím). Nakonec GPU Intel ARC přicházejí téměř poslední, přičemž pouze A770 se podaří předstihnout RX 6600. Promluvme si trochu více o nesrovnalostech.
Správné optimalizace by mohly zdvojnásobit výkon na kartách řady RX 6000. .AI říká, že by měl v následujících dnech vyladit modely pro RDNA 2, v tomto okamžiku by celkové postavení mělo začít lépe korelovat s teoretickým výkonem. Když už mluvíme o přikývnutí..52 IT/S na 4090, 13….
Na základě výkonu 7900 karet pomocí vyladěných modelů jsme také zvědaví na karty NVIDIA a kolik jsou schopny těžit ze svých tenzorových jádra. .. . Stejná logika platí také pro karty ARC Intel.
GPU ARC GPU společnosti Intel v současné době přinášejí velmi neuspokojivé výsledky, zejména proto, že podporují operace FP16 XMX (Matrix), které by měly dodávat až 4x propustnost jako běžné výpočty FP32. . Mimochodem, pokud se chcete pokusit spustit SD na oblouku GPU, uvědomte si, že musíte upravit ‘stabilní_diffesion_engine.PY ‘soubor a změna “CPU” na “GPU” – jinak nevyužívá grafické karty pro výpočty a trvá podstatně déle.
Celkově pak pomocí zadaných verzí jsou karty řady NVIDIA RTX 40 nejrychlejší volbou, následované 7900 kartami a poté GPU řady RTX 30 řady 30. . .
. . .
. To se normálně nestane a ve hrách má i Vanilla 3070 tendenci porazit bývalého šampiona. Ještě důležitější je, že tato čísla naznačují, že optimalizace „Sparsity“ NVIDIA v architektuře Amppere se vůbec nepoužívají – nebo možná jednoduše nejsou použitelné.
Za okamžik se dostaneme k některým dalším teoretickým číslem výpočetních výkonu, ale znovu zvažte RTX 2080 Ti a RTX 3070 Ti jako příklad. . . Skutečnost, že 2080 TI porazí 3070 Ti jasně naznačuje, že sparzita není faktor. Stejná logika platí pro další srovnání jako 2060 a 3050, nebo 2070 Super a 3060 Ti.
Pokud jde o karty RDNA AMD, RX 5700 XT a 5700, ve výkonu je široká mezera. 5700 XT přistane těsně před 6650 xt, ale 5700 pozemků pod 6600. . Při našem testování je však to 37% rychlejší. Ať tak či onak, ani jeden ze starších GPU Navi není v našich počátečních stabilních difúzních benchmarkech obzvláště výkonný.
Konečně, super GTX 1660 na papíře by měl být asi 1/5 teoretickým výkonem RTX 2060, s použitím tenzorových jádra na druhém. Používáme -li výkon shaderu s FP16 (Turing má dvojnásobek propustnosti na shaderovém kódu FP16), mezera se zužuje pouze na 22% deficit. Ale v našem testování je GTX 1660 Super jen asi 1/10 rychlost RTX 2060.
Opět není jasné, jak je optimalizovaný některý z těchto projektů. Není také jasné, zda tyto projekty plně využívají věci, jako jsou jádra Tensor Nvidia nebo jádra Intel XMX. Mysleli jsme si, že by bylo zajímavé podívat se na maximální teoretický výkon (TFLOPS) z různých GPU. Následující graf ukazuje teoretický výkon FP16 pro každý GPU (pouze při pohledu na nejnovější grafické karty), pokud je to možné. Mezi výsledky Nvidia patří také nedostatek – v zásadě schopnost přeskočit multiplikace o 0 až po polovinu buněk v matici, což je údajně docela častým výskytem s hlubokým učením pracovní zátěž.
Tato tenzorová jádra na NVIDIA jasně zabalí úder (šedé/černé tyče jsou bez sparity) a samozřejmě naše stabilní difúzní testování se s těmito čísly přesně neshoduje – ani blízko. Například na papíře je RTX 4090 (pomocí FP16) až o 106% rychlejší než RTX 3090 Ti, zatímco v našich testech to bylo o 43% rychlejší bez Xformers a 50% rychlejší s Xformers. Všimněte si také, že předpokládáme, že projekt stabilní difúze, který jsme použili (Automatic 1111), nevyužije nové pokyny FP8 na GPU ADA Lovelace, které by mohly potenciálně opět zdvojnásobit výkon na RTX 40 řady.
Mezitím se podívejte na GPU oblouku. Jejich maticová jádra by měla poskytovat podobný výkon jako RTX 3060 Ti a RX 7900 XTX, dát nebo vzít, s A380 dolů kolem RX 6800. V praxi nejsou obloukové gpus nikde poblíž těchto značek. . .
Vnitřní poměry na oblouku však vypadají správně. . .
Druhou věcí, kterou si musíte všimnout, je, že teoretický výpočet na AMD RX 7900 XTX/XT se hodně zlepšil ve srovnání s řadou RX 6000. Budeme muset zjistit, zda vyladěné modely řady 6000 uzavírají mezery, jak přikývne.AI uvedla, že očekává o 2x zlepšení výkonu na RDNA 2. .
Zde je jiný pohled na teoretický výkon FP16, tentokrát se zaměřuje pouze na to, co různé GPU mohou udělat pomocí výpočtů shaderu. Architektury ampere a ADA NVIDIA provozují FP16 stejnou rychlostí jako FP32, protože předpoklad je FP16 kódován tak, aby používal tenzorové jádra. .
Je zřejmé, že tento druhý pohled na výpočet FP16 neodpovídá našemu skutečnému výkonu o nic lepšího než graf s jádry Tensor a Matrix, ale možná existuje další složitost při nastavování výpočtů matice, a tak plná výkon vyžaduje. něco navíc. Což nás přivádí do posledního grafu.
. Nové GPU AMD jsme netestovali, protože jsme museli používat Linux na kartách řady AMD RX 6000 a zřejmě řada RX 7000 potřebuje novější jádro linuxu a nemohli jsme to nechat fungovat. Ale podívejte se na výsledky řady RTX 40, s nahrazením Torch DLL.
RTX 4090 je nyní o 72% rychlejší než 3090 Ti bez xformerů a neuvěřitelných 134% rychleji s Xformers. 4080 také bije 3090 Ti o 55%/18% s/bez Xformers. 4070 TI bylo zajímavé o 22% pomalejší než 3090 Ti bez xformerů, ale 20% rychlejší s Xformers.
Vypadá to, že složitější cílové rozlišení 2048×1152 začíná lépe využívat potenciální výpočetní zdroje a možná delší doby běhu znamenají, že tensorové jádra mohou plně ohýbat jejich svaly.
Nakonec je to v nejlepším případě snímek v době stabilního difúzního výkonu. Vidíme časté aktualizace projektu, podporu pro různé tréninkové knihovny a další. .
Zůstaňte na špičce
. .
Odesláním svých informací souhlasíte s podmínkami a zásadami ochrany osobních údajů a jsou ve věku 16 let a více.
Jarred Walton je vedoucím editorem Hardwaru Toma zaměřujícího se na všechno GPU. . Od prvního S3 Virge „3D zpochybňování“ až po dnešní GPU, Jarred drží krok se všemi nejnovějšími grafickými trendy a je tím, kdo se zeptá na výkon her.