Intel haswell cpu microarchitecture

5
Intel Haswell CPU Microarchitecture Durante los últimos 5 años, los microprocesadores de alto rendimiento han cambiado dramáticamente. Una de las influencias más significativas es el creciente nivel de integración que está habilitada por la Ley de Moore. En el contexto de los semiconductores, la integración es un hecho omnipresente de la vida, lo que reduce el consumo de energía del sistema y los costes y aumentar el rendimiento. La última encarnación de esta tendencia es el (SoC) filosofía System-on-a-Chip y enfoque de diseño. SoC han sido la solución preferida para los sistemas de energía extremadamente bajo, como 1W chips para teléfonos móviles. Sin embargo, los microprocesadores de alto rendimiento abarcan un espacio de diseño mucho más amplio, desde los chips portátiles de 15W a 150W sockets de servidor y la adopción de SoC ha sido más lento debido al mercado más diverso. Haswell es la primera familia de SoCs que han sido adaptadas para aprovechar FinFET de 22 nm de Intel la tecnología de proceso. el equipo de diseño de circuitos de Intel sacrificó potencia y rendimiento a favor de una migración rápida a un proceso con una arquitectura radicalmente nueva transistor. La familia de Haswell cuenta con un nuevo núcleo de la CPU, los nuevos gráficos y cambios sustanciales en la plataforma en términos de memoria y la entrega de potencia y de la energía. Todas estas áreas son importantes desde un punto de vista técnico y económico e interactúan de diversas maneras. Sin embargo, la familia de Haswell representa un menú de opciones que están disponibles para los SoC adaptados a determinados mercados. No todos los productos requiere de gráficos (por ejemplo, servidores), ni tampoco es una nueva arquitectura deseable para productos optimizados costes (por ejemplo, equipos de escritorio) de potencia. Los arquitectos escoger y elegir en el menú de opciones, en base a una variedad de factores técnicos y comerciales. El corazón de la familia de Haswell es la CPU del mismo nombre. El núcleo de la CPU Haswell empuja más allá del mercado de PC en nuevas áreas, como la gama alta del mercado de las tabletas emergente. Haswell SoC están dirigidos a 10W, posiblemente con una mayor reducción de energía en el futuro. El nodo de 22nm permite a esta gama más amplia, pero el diseño y la arquitectura Haswell desempeñan un papel crítico en explotar plenamente los beneficios de la nueva tecnología de proceso.

Transcript of Intel haswell cpu microarchitecture

Page 1: Intel haswell cpu microarchitecture

Intel Haswell CPU Microarchitecture

Durante los últimos 5 años, los microprocesadores de alto rendimiento han cambiado dramáticamente. Una de las influencias más significativas es el creciente nivel de integración que está habilitada por la Ley de Moore. En el contexto de los semiconductores, la integración es un hecho omnipresente de la vida, lo que reduce el consumo de energía del sistema y los costes y aumentar el rendimiento. La última encarnación de esta tendencia es el (SoC) filosofía System-on-a-Chip y enfoque de diseño. SoC han sido la solución preferida para los sistemas de energía extremadamente bajo, como 1W chips para teléfonos móviles. Sin embargo, los microprocesadores de alto rendimiento abarcan un espacio de diseño mucho más amplio, desde los chips portátiles de 15W a 150W sockets de servidor y la adopción de SoC ha sido más lento debido al mercado más diverso.

Haswell es la primera familia de SoCs que han sido adaptadas para aprovechar FinFET de 22 nm de Intel la tecnología de proceso. el equipo de diseño de circuitos de Intel sacrificó potencia y rendimiento a favor de una migración rápida a un proceso con una arquitectura radicalmente nueva transistor.

La familia de Haswell cuenta con un nuevo núcleo de la CPU, los nuevos gráficos y cambios sustanciales en la plataforma en términos de memoria y la entrega de potencia y de la energía. Todas estas áreas son importantes desde un punto de vista técnico y económico e interactúan de diversas maneras. Sin embargo, la familia de Haswell representa un menú de opciones que están disponibles para los SoC adaptados a determinados mercados. No todos los productos requiere de gráficos (por ejemplo, servidores), ni tampoco es una nueva arquitectura deseable para productos optimizados costes (por ejemplo, equipos de escritorio) de potencia. Los arquitectos escoger y elegir en el menú de opciones, en base a una variedad de factores técnicos y comerciales.

El corazón de la familia de Haswell es la CPU del mismo nombre. El núcleo de la CPU Haswell empuja más allá del mercado de PC en nuevas áreas, como la gama alta del mercado de las tabletas emergente. Haswell SoC están dirigidos a 10W, posiblemente con una mayor reducción de energía en el futuro. El nodo de 22nm permite a esta gama más amplia, pero el diseño y la arquitectura Haswell desempeñan un papel crítico en explotar plenamente los beneficios de la nueva tecnología de proceso.

El Haswell CPU cuenta con un gran número de mejoras en la arquitectura, con cuatro extensiones que tocan todos los aspectos de la arquitectura de conjunto de instrucciones x86 (ISA). AVX2 trae entero SIMD de vectores de 256 bits, y agrega una instrucción de reunir para la memoria escasa accesos. Los multiplicar-sumar extensiones fusionados mejorar el rendimiento de punto (FP) las cargas de trabajo, tales como la computación científica flotante, y muy bien en sinergia con las nuevas reunir instrucciones. Un pequeño número de instrucciones de manipulación de bits de la criptografía de la ayuda, de redes y de ciertas operaciones de búsqueda. Pasado, Intel ha introducido TSX, o la memoria transaccional , un modelo de programación muy potente para la concurrencia y la programación multiproceso. TSX mejora el rendimiento y la eficiencia del software mediante una mejor utilización del hardware multi-núcleo subyacente.

Page 2: Intel haswell cpu microarchitecture

La filosofía de diseño de Intel destaca el rendimiento de un solo núcleo excelente con bajo consumo de energía. Las mejoras en Haswell se concentran en la programación fuera de orden, las unidades de ejecución y, especialmente, la jerarquía de memoria. La microarquitectura Haswell es un microprocesador de doble rosca, fuera del orden que sea capaz de decodificar 5 instrucciones, la emisión de 4 uops fusionados y el envío de 8 uops cada ciclo. El núcleo Haswell es la base de la próxima generación de Intel de SoCs y se utilizará a partir de comprimidos a los servidores, compitiendo con AMD y una variedad de vendedores SoC basados en ARM.

Haswell introduce un gran número de nuevas instrucciones para el x86 ISA, que se dividen en cuatro familias en general. La primera es AVX2, que promueve las instrucciones SIMD enteras de 128-bits de ancho de SSE de 256 bits de ancho. El AVX original era una extensión de 256 bits utilizando los registros YMM, pero en gran parte para las instrucciones de punto flotante. AVX2 es el complemento y trae número entero SIMD a los registros completos YMM, junto con algunas mejoras para la operación de 128 bits. AVX2 también añade más robusto y el apoyo generalizado para permuta de vectores y turnos. Quizás lo más importante, AVX2 incluye 16 nuevas instrucciones, reunir cargas que se pueden recuperar los 4 u 8 elementos de datos no contiguos usando vectores especial abordando tanto para enteros y punto (FP) SIMD flotante. Reúna es crucial para SIMD amplia y sustancialmente simplifica código vectorización. Tenga en cuenta que AVX2 no incluye instrucciones de dispersión (es decir, el vector dirigido tiendas), a causa de complicaciones con el modelo de ordenación de la memoria 86 y los tampones de carga / almacenamiento.

Mientras AVX2 enfatiza SIMD entero, Haswell tiene enormes beneficios para el código de punto flotante. Además de reunir, de Intel Fused Multiply Add (FMA) incluye 36 instrucciones de FP para la realización de cálculos de 256 bits y 60 instrucciones de vectores de 128 bits. Como se anunció a principios de 2008, FMA de Intel fue architected originalmente para las instrucciones de 4 de operando. Sin embargo, el 22 nm Ivy Bridge puede realizar instrucciones de movimiento de registros en el front-end a través del registro de trucos de cambio de nombre, sin la emisión de uops. Arquitectos de Intel determinan que la eliminación MOV con FMA3 proporciona aproximadamente el mismo rendimiento que FMA4, pero utilizando más denso y más fácil de decodificar las instrucciones, por lo que la abrupta sobre la cara a finales de 2008.

La tercera extensión es de 15 instrucciones de manipulación de bits escalares (conocido como índice de masa corporal) que operan en registros enteros generales. Estas instrucciones se dividen en tres áreas generales: manipulaciones de campo de bits, tales como insertar, por turnos y extracto; mordieron contando como principal valor del cero, y Multiplicar enteros de precisión arbitraria y rotación. El último es particularmente útil para la criptografía. Como acotación al margen, Haswell también agrega una instrucción de movimiento big-endian (MOVBE) que puede convertir ay desde x86 tradicional formato little-endian. MOVBE se introdujo para Atom de Intel, y es muy útil para aplicaciones embebidas que tienen que ver con el almacenamiento y la creación de redes, ya que TCP / IP es big-endian.

El último y más poderoso de las extensiones de la ISA de Intel es TSX, que ha sido discutido ampliamente en un artículo anterior en memoria transaccional de Haswell . En resumen, TSX permite a los programadores escribir código paralelo que se centra en el uso de la sincronización para la corrección, mientras que el hardware optimiza la ejecución para el rendimiento y concurrencia. Hardware Lock elisión (HLE) proporciona de forma transparente el desempeño y rendimiento de bloqueo de grano fino, incluso cuando los programadores utilizar bloqueos de grano grueso. Lo más importante, los prefijos de sugerencia son compatibles con los procesadores de mayor edad.

Memoria Transaccional restringido (RTM) es una nueva interfaz de programación que proporciona memoria transaccional para desarrolladores x86. TM es mucho más útil que la sincronización basada lock-tradicional, porque las transacciones pueden proteger las estructuras de datos más complejas y estar compuestos en todas las funciones, módulos e incluso aplicaciones.

Page 3: Intel haswell cpu microarchitecture

Sin embargo, se requiere vincular nuevas bibliotecas usando RTM y posiblemente volver a escribir software para obtener los beneficios completos.

Ambas variantes del TSX se realiza un seguimiento en línea de caché 64B granularidad. Conflictos excesivos debido a los límites de transacción, uso compartido falso o razas de datos en realidad pueden dañar el rendimiento, por lo que los desarrolladores deben adoptar juiciosamente TSX. Sin embargo, las implementaciones futuras más probable es que tienen menos conflictos y ser más flexible.

De estas nuevas instrucciones, la gran mayoría son sencillas instrucciones que decodifican en un único uop. Sin embargo, los más complejos, tales como reunir y TSX comprometen y abortar se microcodificado.

Fundamentalmente, x86 es bastante similar a las arquitecturas RISC en una serie de dimensiones. Operaciones de la ALU son en gran parte el mismo, sólo hay tantas maneras de hacer la suma, resta y multiplicación. Sin embargo, el front-end es bastante diferente y uno de los aspectos más desafiantes de CPU x86 modernos. Los cachés de instrucciones se mantienen coherentes con cachés de datos y las instrucciones de longitud variable hacen que la decodificación bastante complejo. instrucciones x86 varían en tamaño desde 1 hasta 15 bytes, con prefijos de longitud cambiante, las posiciones de operandos inconsistentes e instrucciones microcodificado complejos. Dado que el P6, estas instrucciones se han transformado en uops longitud fija más manejables que pueden ser seguidos por un núcleo fuera de orden. Al igual que con todas las arquitecturas, el flujo de instrucciones suele verse interrumpida por el flujo de control, tales como saltos condicionales, saltos, llamadas y la rentabilidad, lo que potencialmente redireccionan la instrucción ir a buscar e introducen burbujas en la tubería.

En general, se estima que un núcleo Haswell ofrecerá alrededor de 10% más de rendimiento para el software existente. Para cargas de trabajo utilizando las nuevas extensiones, las ganancias podrían ser significativamente mayor. En teoría, AVX2 y FMA pueden aumentar el rendimiento en un 2 ×, pero el impacto en la mayoría de las cargas de trabajo vectorizable serán mucho más bajos. Investigación de AMD ha demostrado que elisión bloqueo gana 30% para las cargas de trabajo adecuadas, aunque los beneficios dependen fuertemente de la concurrencia real.

Haswell será el primer núcleo x86 grande como para competir contra núcleos basados en ARM en tabletas. Mientras que el rendimiento será mucho más altos, los balances de potencia son muy diferentes. Haswell SoC alcanzará 10W, mientras que las soluciones de la competencia son a menudo más cerca de 4W. La verdadera cuestión es la relativa eficiencia de Haswell SoC, y la ventaja de la enorme ecosistema de software x86. Afortunadamente, Windows 8 ofrece una oportunidad para medir con precisión el rendimiento y la eficiencia. Los resultados inyectarán algunos datos duros en las discusiones que han tenido de otra forma vacua y en gran parte impulsadas por la comercialización.

En resumen, Haswell es una nueva arquitectura magnífica que llevará a Intel a nuevos mercados y una nueva era de la competencia, no sólo de AMD, sino también el ecosistema ARM. En última instancia, los productos se revelan las ventajas de rendimiento y eficiencia de la familia de Haswell, pero la arquitectura se ve muy prometedor, un testimonio de equipo de diseño de Intel.

Page 4: Intel haswell cpu microarchitecture