Har jeg brug for en GPU til stabil diffusion?
Stabil diffusion benchmarked: Hvilken GPU kører AI hurtigst (opdateret)
Vi kommer til nogle andre teoretiske beregningsmæssige ydelsesnumre på et øjeblik, men overvej igen RTX 2080 TI og RTX 3070 TI som et eksempel. . . . .
?
? Du er kommet til det rigtige sted.
Stabil diffusion er uden tvivl et hurtigt og intuitivt AI-kunstgenererende værktøj som Dall-E og Midjourney. . . Når vi taler om det, vil vi tale om, om stabil diffusion kan fungere uden en GPU, eller om du stadig har brug for et grafikkort til at fungere korrekt.
. De er et vigtigt for at skabe AI -genereret kunst på et mere kommercielt eller professionelt niveau.
Væsentlige AI -værktøjer
On-brand AI-indhold, uanset hvor du opretter. . .
. 8 mio. .
.!
. . Læs mere
Kun $ 0.
Originalitet.AI er den mest nøjagtige AI -detektion.På tværs af et testdatasæt på 1200 dataprøver opnåede det en nøjagtighed på 96%, mens dens nærmeste konkurrent kun opnåede 35%. . .
. . Når du køber gennem links på vores websted, kan vi tjene en tilknyttet Kommission.
? ? Lad os finde ud af det.
Er en GPU påkrævet til stabil diffusion?
Ja, for stabil diffusion til at fungere glat uden problemer, skal du have en GPU på din pc. For et minimum skal du se på 8-10 GB NVIDIA-modeller. Sørg desuden for, at du har 16 GB pc -ram i pc -systemet for at undgå ustabilitet.
GPU vil køre stabil diffusion uden at løbe ind i problemer som en langsommere reaktionshastighed. At sige, at stabil diffusion udelukkende kører bedst på et grafikkort, ville ikke være forkert. Med hensyn til hvilken GPU skal bruges, foreslår vi NVIDIA RTX 4080 og 4090 modeller med 16 eller 24 GB VRAM for at få de bedste resultater. .
?
Ja, du kan også køre stabil diffusion på AMD GPU’er bortset fra NVIDIA -seriemodellerne. For at bruge AMD skal du dog sikre dig, at du har en model over RX470. For de bedste resultater skal du desuden sørge for at have yderligere 8 GB eller derover for at undgå ulemper.
Kan stabil diffusion fungere på Apple Mac -processorer?
Ja, den stabile diffusion understøtter Apple Mac -bøger. Det understøtter dog kun de siliciumbaserede M1 og M1 seneste modeller. Enhver model før det er ikke for de bedste resultater. .
Konklusion
. . Derfor for stabil diffusion er det bedst at have en GPU. . Så sørg for at have et godt grafikkort, før du kører stabil diffusion for de bedste resultater.
Et grafikkort er også en god idé generelt til at få mest muligt ud af din pc. . .
Stabil diffusion benchmarked: Hvilken GPU kører AI hurtigst (opdateret)
. . Men hvor hurtigt er forbrugernes GPU’er til at gøre AI -inferens?
Vi har benchmarket stabil diffusion, en populær AI -billedskaber, på den nyeste NVIDIA, AMD og endda Intel GPU’er for at se, hvordan de stables op. Hvis du ved en tilfældighed har prøvet at få stabil diffusion op og køre på din egen pc, kan du have noget at blande om, hvor kompleks – eller enkel! . Den korte resume er, at NVIDIAs GPU’er styrer roost, med de fleste software designet ved hjælp af CUDA og andre NVIDIA -værktøjer. Men det betyder ikke, at du ikke kan få stabil diffusion, der kører på de andre GPU’er.
Vi endte med at bruge tre forskellige stabile diffusionsprojekter til vores test, mest fordi ingen enkelt pakke arbejdede på hver GPU. For NVIDIA valgte vi automatisk 1111s webui -version; Det fungerede bedst, havde flere muligheder og var let at løbe. AMD GPU’er blev testet ved hjælp af NOD.. mangler. At få Intels ARC GPU’er, meget Grundlæggende funktionalitet.
Ansvarsfraskrivelse er i orden. Vi kodede ikke nogen af disse værktøjer, men vi ledte efter ting, der var let at køre (under Windows), der også syntes at være rimeligt optimeret. Vi er relativt sikre på, at NVIDIA 30-serie-testene gør et godt stykke arbejde med at udtrække tæt på optimal ydelse-især når Xformers er aktiveret, hvilket giver et yderligere ~ 20% boost i ydelsen (dog ved reduceret præcision, der kan påvirke kvaliteten). .
. .. .
Vi bruger også forskellige stabile diffusionsmodeller på grund af valget af softwareprojekter. Nikke…4 (selvom det er muligt at aktivere SD2.1 på automatisk 1111). Igen, hvis du har noget indvendigt viden om stabil diffusion og vil anbefale forskellige open source -projekter, der kan køre bedre end hvad vi brugte, så lad os vide det i kommentarerne (eller bare e -mail jarred).
. , . Det er de samme anvisninger, men målrettet mod 2048×1152 i stedet for de 512×512, vi brugte til vores benchmarks. Bemærk, at de indstillinger, vi valgte, blev valgt til at arbejde på alle tre SD -projekter; Nogle muligheder, der kan forbedre gennemstrømningen, er kun tilgængelige på automatisk 1111’s build, men mere om det senere. Her er de relevante indstillinger:
Positive Prompt:
Negativ prompt:
Trin:
Klassificeringsfri vejledning:
.
Prøveudtagningsalgoritme:
Prøveudtagningsalgoritmen ser ikke ud til at påvirke ydelsen, skønt det kan påvirke output. Automatisk 1111 giver flest muligheder, mens Intel Openvino Build ikke giver dig noget valg.
Her er resultaterne fra vores test af AMD RX 7000/6000-serien, NVIDIA RTX 40/30-serie og Intel ARC A-serie GPU’er. Bemærk, at hver NVIDIA GPU har to resultater, en ved hjælp af standardberegningsmodellen (langsommere og i sort) og en anden ved hjælp af det hurtigere “Xformers” -bibliotek fra Facebook (hurtigere og i grønt).
Som forventet leverer NVIDIAs GPU’er overlegen ydelse – undertiden med massive marginer – sammenlignet med alt fra AMD eller Intel. . Det tager lidt over tre sekunder at generere hvert billede, og endda RTX 4070 Ti er i stand til at knirke forbi 3090 Ti (men ikke hvis du deaktiverer Xformers).
. . 7900-kortene ser ganske godt ud, mens hvert RTX 30-serie-kort ender med at slå AMDs RX 6000-serie dele (for nu). . .
Korrekt optimeringer kunne fordoble ydelsen på RX 6000-serien kort. .. Apropos nik..52 IT/S på 4090, 13.31 på 4080, 11.41 på 3090 Ti og 10..
. På papiret har 4090 over fem gange ydelsen af RX 7900 xtx – og 2.. I praksis er 4090 lige nu kun ca. 50% hurtigere end XTX med de versioner, vi brugte (og det falder til kun 13%, hvis vi udelader det lavere nøjagtigheds Xformers -resultat). .
. . I øvrigt, hvis du vil prøve at køre SD på en ARC GPU, skal du bemærke, at du er nødt til at redigere ‘STABLE_DIFFUSHUSION_Engine..
Generelt set ved hjælp af de specificerede versioner er NVIDIAs RTX 40-serie-kort det hurtigste valg, efterfulgt af 7900-kortene, og derefter RTX 30-serien GPU’er. . .
. . Men resultaterne her er ret interessante.
Først ender RTX 2080 TI med at overgå RTX 3070 TI. Det sker normalt ikke, og i spil har selv Vanilla 3070 en tendens til at slå den tidligere mester. .
Vi kommer til nogle andre teoretiske beregningsmæssige ydelsesnumre på et øjeblik, men overvej igen RTX 2080 TI og RTX 3070 TI som et eksempel. 2080 Ti Tensor -kerner understøtter ikke sparsitet og har op til 108 TFLOPS af FP16 -beregning. . Det faktum, at 2080 Ti slår 3070 Ti tydeligt indikerer, at sparsitet ikke er en faktor. .
Hvad angår AMDs rDNA -kort, RX 5700 XT og 5700, er der et bredt hul i ydelsen. 5700 xt lander lige foran 6650 xt, men 5700 lander under 6600. På papiret skal XT -kortet være op til 22% hurtigere. I vores test er det imidlertid 37% hurtigere. Uanset hvad er ingen af de ældre NAVI 10 GPU’er særligt performante i vores oprindelige stabile diffusionsbenchmarks.
. Hvis vi bruger shader -ydeevne med FP16 (Turing har dobbelt gennemstrømningen på FP16 Shader -kode), indsnævres kløften til kun et underskud på 22%. .
. Det er heller ikke klart, om disse projekter fuldt ud udnytter ting som Nvidias tensorkerner eller Intels XMX -kerner. Som sådan troede vi, at det ville være interessant at se på den maksimale teoretiske præstation (TFLOPS) fra de forskellige GPU’er. Følgende diagram viser den teoretiske FP16 -ydelse for hver GPU (kun ser på de nyere grafikkort) ved hjælp af tensor/matrixkerner, hvor det er relevant. Nvidias resultater inkluderer også knaphed – dybest set evnen til at springe multiplikationer over med 0 for op til halvdelen.
. F.eks. Bemærk også, at vi antager det stabile diffusionsprojekt, vi brugte (automatisk 1111), udnytter ikke de nye FP8-instruktioner på ADA Lovelace GPU’er, som potentielt kan fordoble ydelsen på RTX 40-serie igen.
I mellemtiden skal du se på ARC GPU’erne. . . . .
. Teoretisk beregningspræstation på A380 er cirka en fjerdedel af A750, og det er her den lander med hensyn til stabil diffusionspræstation lige nu. Mest sandsynligt bruger ARC GPU’erne skygger til beregningerne, i fuld præcision FP32 -tilstand og går glip af nogle yderligere optimeringer.
. .AI sagde, at det forventer omkring en 2x forbedring i ydeevnen på rDNA 2. .
Her er et andet kig på teoretisk FP16 -præstation, denne gang kun fokuserer på, hvad de forskellige GPU’er kan gøre via shader -beregninger. NVIDIAs Ampere- og ADA -arkitekturer kører FP16 med samme hastighed som FP32, da antagelsen er FP16 kan kodes for at bruge tensorkernerne. .
Det er klart, at dette andet blik på FP16 -beregning ikke stemmer overens med vores faktiske ydelse bedre end diagrammet med tensor- og matrixkerner, men måske er der yderligere kompleksitet i opsætning. noget ekstra. .
. Vi testede ikke de nye AMD GPU’er, da vi var nødt til at bruge Linux på AMD RX 6000-serien kort, og tilsyneladende har RX 7000-serien brug for en nyere Linux-kerne, og vi kunne ikke få det til at fungere. .
. . 4070 Ti var interessant 22% langsommere end 3090 Ti uden Xformers, men 20% hurtigere med Xformers.
Det ligner den mere komplekse målopløsning på 2048×1152 begynder at drage bedre fordel af de potentielle beregningsressourcer, og måske betyder de længere drevne tider, at tensorkernerne fuldt ud kan flexere deres muskel.
. . .
. Vi sender brud på nyheder og dybdegående anmeldelser af CPU’er, GPU’er, AI, Maker-hardware og mere direkte til din indbakke.
.
Jarred Walton er seniorredaktør hos Toms hardware med fokus på alt GPU. . Fra den første S3 Virge ‘3D Decelerators’ til dagens GPU’er, Jarred Keep med alle de nyeste grafiktrends og er den, der spørger om spilpræstation.