Low-hanging fruit - Universidad Nacional de Córdoba · contíguos de 64 bytes . 8 doubles, 16 oats...

Low-hangingfruitCarlosBederián,carlos.bederian@unc.edu.ar

NicolásWolovick,nicolasw@famaf.unc.edu.ar

MotivaciónEnHPCsepuedellegarrelativamentelejosconpocotrabajo

BuenusodelasherramientasdisponiblesParalelizacióncondirectivasBibliotecas

¡Ysepuedellegaraningunapartedespuésdemuchotrabajo!

"Optimizar"todoamano

AgendaHoy:Mejorarperformancefácilmenteconelcompilador

Ytodoslosrabbitholesdondenometerse

Mañana:Herramientasparaverpordóndeseguir

Unsegundo...¿EstonoeradeHPC?

EncuestaausuariosCCAD¿Cuántosrecursospodríaaprovecharsicontaraconusoexclusivopor1mes?

CompiladoresUncompiladormodernoes:

Unfrontendqueconvierteelcódigoenunlenguajeparticularaunarepresentaciónintermedia(IR)

PreprocesadorAnálisisléxicoAnálisissintácticoAnálisissemántico

UnmiddleendquetransformalarepresentaciónintermediaAnálisisyoptimización

Unbackendquetransformalarepresentaciónintermediaalaarquitecturaencuestión

OptimizaciónparalaarquitecturaGeneracióndecódigo

GCCClásicasuitedecompiladoresdeGNU

Iniciadoen1987porRichardStallmanLicenciaGPL(copyleft)Ada,C,C++,D,Fortran,Go,Objective-CSoportaprácticamentecualquierarquitecturaÚltimaversión:GCC9.1.0(abril2019)

LLVMColecciónmodulardetecnologíaparacompiladores

Iniciadoen2003porChrisLattnerLicenciaUIUC/NCSAAltamentemodular

ReemplazodebackenddeGCCClang(Apple),compiladorcompletoparaC,C++,Objective-CCUDA,ISPC,Julia,OpenCL,Rust,Swift...Flang/f18(NVIDIA),compiladorFortran2018

SoportedearquitecturasgeneralmenteprovistoporlosfabricantesmismosAunquenosiempreencódigoabierto

GeneralmentecompatibleconGCCenparámetrosyextensionesÚltimaversión:LLVM8.0(marzo2019)

IntelSuitepropietariadecompiladoresparaHPC

PropietarioCaro(paranosotros)

Licenciasespecialesparaestudiantes,proyectosopensource,educadoresC,C++,FortranOptimizadoparaarquitecturasIntel

...yavecesofuscadoparaAMDÚltimaversión:ParallelStudioXE2019Update4(junio2019)

ConsiguiendocompiladoresCadaversiónnuevadeuncompiladortiene:

Bug�xesSoportedeversionesnuevasdelenguajesenelfrontendMásomejoresoptimizaciones

Formasdeobtenerlaúltimaversión:

EsperarunanuevaversióndeladistribucióndelinuxUsarrepositoriosthird-partyBajarloycompilarlo

Spack,Easybuild

OptimizacionesdelcompiladorProblemaNP-completooindecidible

Transformacionesdecódigoporotroequivalenteadistintasescalas

PeepholeLocal(bloquebásico)LoopGlobal(función)Interprocedural

Strengthreduction,instructioncombiningReemplazodeexpresionesporotrasequivalentesconmenorcostocomputacional

4*a a<<2n%2==0 n&1==0i++;i++ i+=2x=0 x=x^xfor(i=0;i<N;++i)a[i]=0; memset(a,0,N*sizeof(a[0]))

Punto�otanteElcompiladorgeneralmentenointentahacernadaconoperacionesdepunto�otante.

D.Goldberg,WhatEveryComputerScientistShouldKnowAboutFloating-PointArithmetic

-ffast-mathal...rescate?

ReordenamientoyreemplazodeinstruccionesPermiteaproximacionesconinversosActualizacióndeerrnoenfuncionesdepunto�otanteAsumequenohaycerosconsignoApagachecksdeNaNoceroenalgunoslugaresIgnoraexcepcionesdelhardwareDenormalstruncadosacero(enalgunoscompiladores)

EnloscompiladoresIntel,fp-modelfastvieneprendidopordefecto.

Adivinaadivinador¿Cuántodemoraenejecutarestecódigo?

#defineN1073741824ull

intmain(){double*a=malloc(N*sizeof(double));doublesum=0.0;for(size_ti=0;i<N;++i){sum+=a[i];}return0;}

DeadcodeeliminationElcompiladoreliminacódigoquenoseejecutaoquenoafectaelresultado

AnálisisagresivoActivadoen-O1

Pesadillaparalagentequepiensaenseguridad¡Noavisacuandolohace!

ConstantfoldingElcompiladorcalculaentiempodecompilaciónlosresultadosquepuede.

ConstantpropagationElcompiladorllevarastrodelosvaloresdelasvariables.

Lacombinaciónconotrasoptimizacionesespoderosa:Deadcodeelimination:SalteaguardasinnecesariasStrengthreduction:Convierteoperacionescarascomo%Constantfolding:Pre-calculaexpresionesmáscomplejas

Fijacotasdeloops

Constantfolding(...)intconstant_sum(void){intsum=0;for(inti=1;i<=5;++i){sum+=i;}returnsum;}

LiverangeanalysisConstantpropagationrecargado.Elcompiladorllevarastroderangosdevaloresdelasvariables.

intsquare(intx){inty=x*x;if(y<0){printf("Acánoselleganunca");}returny;}

CommonsubexpressioneliminationElcompiladorahorratrabajosacandofactorcomún.

Aplicaalcálculodeposicionesenmatricesysusvecinos

floatcse(floata,floatb,floatc){floatx=(a*b)-c;floaty=(a*b)+c;returnx/y;}

VariablerenamingElcompiladorgeneracopiasdevariablesquesereutilizanconpropósitosindependientes.

Permiteparalelismoenlaejecución

OptimizaciónquevienegratisconlaconversiónaformaSSA

InvarianthoistingElcompiladordetectacódigoinvariantedentrodeunloopylomueveafuera.

InductionvariableanalysisElcompiladoranalizacómoseutilizalavariabledeinduccióndentrodelloopytransformalasexpresiones

voidzero_odd(floata[]){for(inti=0;i<N;++i){a[2*i+1]=0.0f;}}

LoopunrollingElcompiladordespliegaunloopdemaneraquecadaiteraciónoperesobremúltipleselementos.

MuchoparalelismodisponibleAltísimocostoencachedeinstrucciones

voidarray_sum(floata[],floatb[],floatc[]){for(inti=0;i<N;++i){c[i]=a[i]+b[i];}}

voidarray_sum_unrolled(floata[],floatb[],floatc[]){inti;for(i=0;i<N-i%4;i+=4){c[i+0]=a[i+0]+b[i+0];c[i+1]=a[i+1]+b[i+1];c[i+2]=a[i+2]+b[i+2];c[i+3]=a[i+3]+b[i+3];}for(;i<N;++i){c[i]=a[i]+b[i];}}

LoopunswitchingDehaberunacondicióninvariantedentrodeunloop,elcompiladorlaextraeygenerardosversionesdelloop.

voidarray_divide(floata[],floatd){for(inti=0;i<N;++i){if(d==0.0f){a[i]=0.0f;}else{a[i]=a[i]/d;}}}

LooppeelingSeparariteracionesconcomportamientodistinto(generalmentelaprimera)

Enestemomento,gcc,clangeiccnosabensepararlasiteracionesdelbordedelresto.

voidstencil(floata[],floatb[],intN){for(unsignedinti=0;i<N;++i){if(i==0){b[i]=a[i+1]/2;}elseif(i==N-1){b[i]=a[i-1]/2;}else{//0<i<N-1b[i]=(a[i-1]+a[i+1])/2;}}}

Loop�ssion,loopfusionSepararounirloopsindependientesquecorrensobreelmismorango.

voidinit(floata[],floatb[],floatc[]){for(inti=0;i<N;++i){a[i]=f();b[i]=g();c[i]=h();}}

MatricesenmemoriaLasmatricessetienenqueguardarenmemoria,queesunidimensional.

ParaunamatrizA :

Fortran:A(y,x) x*N+y("column-major")C:A[y][x] y*N+x("row-major")

Estoesimportanteporquelamemoriayelprocesadoroperansobresegmentoscontíguosde64bytes .

8doubles,16�oats¡Loquenoseutilizaesanchodebandadememoriamalgastado!

��

[� ∗ 64, (� + 1) ∗ 64)

LoopinterchangeIntercambiodeloopsanidadosparamejorlocalidad.

Ojoacá:SaberlasrazonesyescribirlobiendesdeunprincipionoafectalalegibilidadNosiempreleaciertaelcompilador(GCCenparticular)

floata[N][N],b[N][N],c[N][N];

voidmatmul(){for(inty=0;y<N;++y)for(intx=0;x<N;++x)for(intk=0;k<N;++k)c[y][x]+=a[y][k]*b[k][x];}

Loopblocking/tilingParticionarlasiteracionesparaobtenermejorlocalidaddememoria.

Ejemplopatológico:Transponerunamatriz

¡11%decachemisses!

floatA[N][N],At[N][N];

voidtranspose(){for(inty=0;y<N;++y)for(intx=0;x<N;++x)At[x][y]=A[y][x];}

ConloopblockingfloatA[N][N],At[N][N];

voidtranspose(){for(by=0;by<N;by+=BY){for(bx=0;bx<N;bx+=BX){for(y=by;y<by+BY;++y){for(x=bx;x<bx+BX;++x){At[x][y]=A[y][x];}}}}}

InliningReemplazarunllamadoafunciónpordirectamentecopiarelcuerpodelafuncióndentrodelcódigodelllamador

SeahorratodoelprocesodellamadoafunciónPasajedeparámetros,prólogo,epílogo

SepagaconduplicacióndecódigoPresiónsobreelcachedeinstrucciones

ElcompiladorestimaconheurísticassiconvieneNota:Silafunciónesvisiblefueradelmódulo,tambiénsegeneralaversiónestándarNotienesentidousarmacrosparaesto

Link-timeoptimizationLasoptimizacionesgeneralmenteselimitanaunaunidaddecompilaciónporcómosellamaalcompilador.

ConLTO(GCC:-flto,Intel:-ipo)sólosecorreelfrontendsobrecadaunidaddecompilación,yelrestodelasfasessedejanparaelmomentodelinkdetodoelprograma.

Nota:Requieretoolchainmoderna

AutovectorizaciónLosprocesadorestieneninstruccionesvectorialesqueoperansobreconjuntosdeelementosdelongitud�ja.

EnunprocesadorconAVX-512,noutilizarinstruccionesvectorialesparadoublesestirar~80%delaperformanceLoselementosgeneralmentetienenqueestarcontíguosenmemoriaLoselementostienenqueserindependientes

Códigoautovectorizado1.(Aveces)Loopinicialescalarhastallegaradirecciónalineada2.Loopvectorizado,procesamúltipleselementosporciclo3.Loopescalarparaelrestodeloselementos

Nota:Silacantidaddeelementosespequeña,estoesmáslento

¿Ysinoautovectoriza?Elautovectorizadornofuncionaparacódigorelativamentecomplejo:acáesdondehayqueoptimizar

1.Revisarmensajesdediagnósticodelcompiladorporlosquenovectorizóunloopyarreglarlos

Motivo#1:lascosasestánmaldispuestasenmemoria2.IndicarlealcompiladorcondirectivasOpenMPSIMD3.Usarotrolenguajemásamigableparavectorizar(e.g.SYCL,ISPC)4.Vectorizaramanoconintrinsics

AutoparalelizaciónElcompiladoranalizasilasiteracionesdeunloopsonindependientes,ylasreparteentrehilossiconviene.

Engeneralnofunciona,peronuncaestádemásprobar...

SeleccióndearquitecturaElcompiladortieneunmodelodelasunidadesdeejecucióndelprocesador:

CostoylatenciadecadainstrucciónPuertosdeejecuciónSetsdeinstruccionessoportados

Siunonoledicenada,elcompiladorgeneracódigoparacualquierprocesador

EnX86-64,estoesunprocesadorconSSEySSE2...de2003.

Feedback-drivenoptimizationMuchasdelasoptimizacionessedecidensegúnheurísticas.FDOsetratadeobservarelprogramaenfuncionamientoparacompilarloconmásconocimiento.

1.Primerapasada:Compilarelprogramaconinstrumentacióndelcompiladorparaobtenermétricas

AlternativanuevaparaGCC/Clang:AutoFDO,obtienemétricasdeunacompilaciónnormaldelprogramautilizandoperf.

2.Correrelprogramatratandodeejercitartodoelcódigo3.Segundapasada:Compilarnuevamenteelprogramapasándolealcompiladorlas

métricasobtenidas

JuntandotodoQueremosaplicartodaslasoptimizacionesposibles(-O3)Lasdepunto�otantetambién(GCC:-ffast-math,Intel:-fp-modelfast=2-no-prec-div)Optimizarentredistintasfuncionesymódulos(GCC:-flto,Intel:-ipo)Paraelprocesadorquetenemos(GCC:-march=native,Intel:-xHost)Obteniendométricasparaoptimizarmejor(GCC:-fprofile-generate,Intel:-prof-gen)

...ousandolainformaciónqueobtuvimos(GCC:-fprofile-use,Intel:-prof-use)

Incluirinformacióndedebuggingparaelpro�ler(-g)Versiloopblockingayuda(GCC:-floop-block)Avisamedóndenopudistevectorizar(GCC:-fopt-info-vec-missed,Intel:-qopt-report-qopt-report-phase=vec)

PythonCPythonesunintérpretelento

SellamanfuncionesybibliotecasimplementadasenFortran,CoC++paracualquiercosapesada

NumPyparatodo¿AquéBLASyLAPACKllama?¿ConquécompiladorsecompilóelcódigoFortran?

Sinoalcanza,probarconNumba

DistribucionesdePythonLaquevinoconladistrodeLinux

UsaelBLASinstalado(ATLASuOpenBLAS)Compiladocongfortrandeladistribución

AnacondaMantenidaporContinuumMezcladepackagemanagerconvirtualenvOpcióndeMKLuOpenBLASEngeneralelPythonmásrápido

NumbaPermitemarcarcódigoPython+NumpycondecoradoresparaqueseacompiladoconLLVM.

AplicablesóloparaunsubconjuntodellenguajeSoportacorrerenGPUsyparalelizar

importnumbaimportnumpy

@numba.jitdefsum(x):total=0foriinrange(x.shape[0]):total+=x[i]returntotal

x=numpy.arange(10_000_000);%timesum(x)%timesum(x)

JuliaLenguajeinterpretadoespecí�camentecreadoparaaplicacionescientí�cas.

SintaxisfamiliarparausuariosdeFortran1-basedarrays

HerramientasmodernasJupyternotebooks

EcosistemacrecienteDiseñadoparaperformance

ElcódigoenrealidadsecompilaconLLVM

AplicacionesHPC1.Bajarbinariosoptimizadosporlosdesarrolladores

Siesnecesariorecompilar(e.g.porusarotroMPI),versitienenopcionesdecompiladorsugeridas

2.BuscarotragentedelrubroquelohayahechoXCONFIGURE(deIntel,paraIntel)HPCAdvisoryCouncilBestPracticesSpackEasybuild

3.Soborneasusysadminfavorito

Elelefanteenlahabitación¿YTensorFlow?

Low-hanging fruit - Universidad Nacional de Córdoba · contíguos de 64 bytes . 8 doubles, 16 oats...

Documents

Transcript of Low-hanging fruit - Universidad Nacional de Córdoba · contíguos de 64 bytes . 8 doubles, 16 oats...

FACULTAD DE CIENCIAS HUMANÍSTICAS Y … · las siguientes marcas: Quaker Oats, Gatorade, Frito-Lay y Tropicana. Gatorade es una bebida no gasificada, usada para rehidratar y recuperar

Grado 2 Matemáticas...11 8 1 8 5 2 4 1 5 5 4 5 1 6 5 6 8 1 7 5 8 8 1 9 5 10 6 1 5 5 12 7 1 8 5 13 Which strategy did you use to solve problem 12? Explain why. Add. Using Doubles and

Pro oats presentation (ellie marie keene)

SEGURIDAD LOGÍ · PDF file · 2016-02-22SUPPLY CHAIN & SECURITY MANAGEMENT La globalización de las cadenas de suministro ... Nokia, Kellogg’s, Quaker Oats y Volkswagen. Autor

Estrategias de crecimiento: la adquisición de Quaker Oats ... · PDF file... (5 fuerzas de Porter) ... Valuación de Flujos Libres de Efectivo por el Modelo de Crecimiento ... embotellador

Non CC Doubles

Révision du Plan Local d'Urbanisme O Réunion Publique F …©vision du PLU... · 2019. 7. 10. · Nota: Il s’agit de la population avec doubles comptes. La population sans comptés

te vuelva los ojos, adonde quiera que mire, negras ruinas de mi vida es lo que veo aquí, donde tantos años he pasado, he malgastado y consumido.» No habrás de hallar nuevos sitios,

IMPACTO AMBIENTAL. EL PLANETA HERIDO · IMPACTO AMBIENTAL. EL PLANETA HERIDO 05 «Las futuras generaciones no nos perdonarán por haber malgastado su última oportunidad, y su última

PUERTAS SECCIONALES PORTES SECTIONNELLES Ta … · y ventiladores de aluminio o PVC Hublots de verre ou polycarbonate doubles et grilles de ventilation en aluminium et PVC Glass or

SEMANA SANTA 2020 Colegio Polivalente Don Orione...cabrito para regocijarme con mis amigos. Pero cuando vino éste tu hijo que ha malgastado tu dinero, has matado para él el ternero

Cap'n Crunch Cereal OAT; Q AXER OATS '-3 Chåìðs El paraiso Tostadas ... or Casero Bulk El Mexicano Pork Loin Rib Chops Lb. Center Cut Center Cut Pork Loin Chops 1 Lb. Wafer Thin

IMPACTO AMBIENTAL. EL PLANETA HERIDOIMPACTO AMBIENTAL. EL PLANETA HERIDO 05 «Las futuras generaciones no nos perdonarán por haber malgastado su última oportunidad, y su última

FABRA (OATS 6 U 1 X O Lhemeroteca-paginas.mundodeportivo.com/./EMD02/HEM/...que sea la sal y pimienta del gra. po. Y bueno seut que el ya vei Con la victoria del subcampeón catalán

Preámbulo · Ex presidente de Quaker Oats Company Todas las empresas tienen una denominación social por la que son conocidas por sus clientes, posibles clientes, proveedores y el

“LA ADQUISICIÓN DE QUAKER OATS POR PEPSICO” · ESTUDIO DE CASO . Que para obtener el grado de . MAESTRO EN ADMINISTRACIÓN . Presenta . ROMEO DOMINGUEZ GONZALEZ . DIRECTOR: Mtra.

Les doubles pages culturelles - Académie d'Aix-Marseille€¦ · Web viewAlgunos ejemplos. Al-Andalús p. 2. América p.2. América precolombina. El descubrimiento. Los indígenas.

1 Treinta años de actividad de la Comisión de las Estrellas Dobles de la Sociedad Astronómica de Francia Commission des Étoiles Doubles Société Astronomique.

mk0instapotltxcghbmd.kinstacdn.com€¦ · BARLEY (pearl) CONGEE MILLET oogo OATMEAL 00 00 OATS (steel cut) poRRlDGE QUINOA RICE (Basmati) RICE (brown) RICE (Jasmine) RICE (white)

Les doubles pages culturelles - ac-aix-marseille.fr€¦ · Web viewCocina española Puerta del Sol ... La nueva narrativa peruana Enlaces - Terminale p. 77. Literatura y cocina