Arm Mali-G77 GPU - kompletta ins och outs

Författare: Randy Alexander
Skapelsedatum: 3 April 2021
Uppdatera Datum: 1 Juli 2024
Anonim
Arm Mali-G77 GPU - kompletta ins och outs - Teknik
Arm Mali-G77 GPU - kompletta ins och outs - Teknik

Innehåll


Förutom sin nya Cortex-A77 CPU-kärna har Arm avslöjat en nästa generations GPU avsedd för nästa generations SoC-smarttelefoner. Mali-G77, för att inte förväxla med den nya Mali-D77-skärmprocessorn, markerar avgång från Arm's Bifrost-arkitektur och flytten över till Valhall.

Vi kommer in på de fina detaljerna i den nya arkitekturen på ett ögonblick. Först kommer vi att hoppa rätt till vad användare bör förvänta sig när det gäller prestationsvinster.

Mali-G77 prestandaöversikt

Arm kan skryta med upp till 40 procent grafikprestanda med nästa gen Mali-G77-enheter jämfört med dagens Mali-G76-modeller. Detta nummer tar hänsyn till processer såväl som arkitektoniska förbättringar. Mali-G77 kan konfigureras från 7 till 16 skuggkärnor, och varje kärna är nästan exakt samma storlek som G76-kärnan. Detta innebär att avancerade smartphones sannolikt kommer att levereras med liknande GPU-kärnantal som de gör idag - någonstans i de låga tonåren. Det låter oss lätt göra några spekulativa prestationsbedömningar gentemot befintliga chipset.


När man tittar på det populära Manhattan GFXBench-riktmärket öppnar en 40-procentig prestationsökning en betydande ledning mot nuvarande generationens hårdvara. Qualcomms nästa generations Adreno-chip kommer att behöva sin egen betydande prestandauppgradering för att hålla spelplanen nivå. Tabellerna verkar vända i armens fördel.

Arkitekturmässigt ökar spelprestanda 20 till 40%, medan maskininlärning tjänar 60%

Baserat på denna ganska grova bollparkering ser en 10-kärnars Mali-G77 (en konfiguration som vi ofta ser från Huawei) nästan ut på att generera den här generationens topp av linjen mobil grafikhårdvara. En konfiguration med 12 kärnor, vanligtvis sett i Samsungs Exynos, ger en stor ledning för Arms senaste GPU. Naturligtvis beror riktiga riktmärken på andra faktorer, inklusive processnod, GPU-cacheminne, LPDDR-minneskonfiguration och vilken typ av applikation du testar. Så ta ovanstående graf med en rejäl dos salt.


När det gäller den nya arkitekturen ensam säger Arm att Mali-G77 erbjuder en genomsnittlig 30 procent förbättring av energieffektivitet och prestanda täthet. Det finns också en enorm ökning på 60 procent för applikationer för maskininlärning, tack vare INT8-punktstöd för produkter. Förväntningarna på spelprestanda ställs någonstans mellan 20 och 40 procent högre, beroende på titeln och typen av grafikarbetsbelastning som erbjuds.

För att förstå exakt hur Arm har uppnått den här prestandahöjningen, låt oss ta ett djupare dyk in i arkitekturen.

Möt Valhall, Bifrosts efterträdare

Vahall är Arms andra generationens skalära GPU-arkitektur. Det är en 16-bred-varp exekveringsmotor, vilket i huvudsak betyder att GPU utför 16 instruktioner parallellt per cykel, per behandlingsenhet, per kärna. Det är upp från 4 och 8 i Bifrost.

Andra nya arkitektoniska funktioner inkluderar dynamisk instruktionsplanering som hanteras helt i hårdvara och en helt ny instruktionsuppsättning som bibehåller driftsekvivalensen till Bifrost. Andra inkluderar stöd för Arm's AFBC1.3-komprimeringsformat, FP16-renderingsmål, skiktad rendering och utgångar för vertexhuggare.

Mali-G77 gör 33% mer matematik parallellt än G76.

Nycklarna till att förstå de stora arkitektoniska förändringarna hittas genom att undersöka exekveringsenheten inuti kärnan. Denna del av GPU ansvarar för att numrera kraschar.

Inuti körmotorn

I Bifrost innehöll varje GPU-kärna tre exekveringsmotorer eller två för vissa nedre ändar Mali-G52-konstruktioner. Varje motor innehåller en i-cache, registerfil och varpkontrollenhet. I Mali-G72 hanterar varje motor fyra instruktioner per cykel, som ökade till 8 i förra årets Mali-G76. Spridning över dessa tre kärnor möjliggör 12 och 24 32-bitars flytande punkt (FP32) fused multiply-accumulation (FMA) instruktioner per cykel.

Med Valhall och Mali-G77 finns det bara en enda exekveringsmotor i varje GPU-kärna. Som tidigare innehåller denna motor varpkontrollenhet, register och icache, som nu delas mellan två processorenheter. Varje behandlingsenhet hanterar 16 varpinstruktioner per cykel, för en total genomströmning av 32 FP32 FMA-instruktioner per kärna. Det är en 33-procentig ökning till instruktionens genomströmning över Mali-G76.

Arm har övergått från tre till bara en exekveringsenhet per GPU-kärna, men det finns nu två behandlingsenheter inom en G77-kärna.

Dessutom innehåller var och en av dessa behandlingsenheter två nya matematiska funktionsblock. Den nya konverteringsenheten (CVT) hanterar grundläggande heltal, logik, gren och konverteringsinstruktioner. Den speciella funktionsenheten (SFU) påskyndar heltalens multiplikation, uppdelningar, kvadratrot, logaritmer och andra komplexa heltalsfunktioner.

Standard FMA-enheten har sett några justeringar som stöder 16 FP32-instruktioner per cykel, 32 FP16 eller 64 INT8-punktinstruktioner. Dessa optimeringar ger 60 procent högre prestanda i maskininlärningsapplikationer.

Quad Texture Mapper

Den andra viktiga förändringen i Mali-G77 är införandet av en fyrkantig texturmapper, upp från en dubbel texturmapper i föregående generation. Texturmäklaren ansvarar för att kartlägga 3D-polygonerna i en scen i 2D-representationen som du ser på en skärm. Det är ansvarigt för provtagning, interpolering och filtrering för att jämna ut vinklat och rörligt innehåll för att undvika hårda kanter av låg kvalitet.

Lågkostnad anti-aliasing kvarstår för att hjälpa till med bildkvalitet, men fördubblingen av texturprestanda är den största fördelen här. Texturenheten behandlar nu fyra bilinära texter per klocka upp från 2 tidigare, 2 tre treåriga texel per klocka och hanterar snabbare FP16 och FP32-filtrering.

Kartläggning av fyrhjärtstruktur delas upp i två banor, vilket ger en kortare pipeline för trådar som träffar innehåll i cachen. Missvägen, som hanterar formatkonvertering och dekomprimering av textur, har ett bredare gränssnitt till L2-cache. Detta är också användbart för arbetsbelastningar i maskinen som ofta kan behöva hämta in ny data från minnet.

Förena allt i Mali-G77

Arm har gjort ett antal andra tweaks till Mali-G77 för att sammanfalla med de stora förändringarna i Valhall-arkitekturen. Kontrollblocket förenklas tack vare designen för en enda exekveringsenhet, medan den interna dynamiska schemaläggaren faktiskt möjliggör en mer flexibel instruktion som ges ut i varje kärna. Med en högre genomströmning i varje kärna är datapath också kortare och lägre i latens, ner till bara 4-cykler från 8 tidigare.

Den nya designen är också bättre anpassad till Vulkan API, vilket förenklar drivrutinsbeskrivningarna för att sänka förarhuvudet för att förbättra prestanda "till metall".

Sammanfattningsvis gör Mali-G72 och Valhall viktiga förändringar från Bifrost som lovar betydande prestandaökningar för spel och maskininlärningsapplikationer. Det är viktigt att designen passar in i samma kraft- och områdesbudgetar som Bifrost, vilket säkerställer att mobila enheter kan erbjuda högre prestanda utan att oroa sig för värme, kraft och kiselkostnader. Baserat på prestationsprognoserna borde Mali-G77 kunna ge Qualcomms nästa gen Adreno en bra körning för sina pengar.

Google Fit enate uppdatering innehåller nya hemkärmwidget, en reglage för aktivitetintenitet och mer.Uppdateringen kommer att lanera den här veckan för Android och Wear O.Det ...

Det verkar om om de fleta martphonemärken idag arbetar med en hopfällbar telefon av något lag. Nu har Google enligt uppgift bekräftat att det ockå fungerar med tekniken....

Dömde Idag