'cookieOptions={msg};'> El blog del ensamblador: Expectativas AMD Zen

Select your language

15/2/16

Expectativas AMD Zen


Últimamente se han visto varios artículos sobre la próxima arquitectura de procesadores AMD "Zen" la cual estará basada en el nuevo proceso de fabrica Fin-Fet, bueno, yo no me referiré al proceso de fabricación, ni tampoco hablare detalladamente sobre las versiones de servidores AMD "Opteron", de las cuales se ha estado diciendo que vendrán con 32 nucleos (64 procesadores lógicos para el sistema operativo debido a la tecnología SMT), bueno ya mencione esto en un articulo anterior, ademas de esto, también se mencionan 8 canales de memoria de los cuales también hable y precisamente en base a esta información puedo deducir como serán los próximos procesadores gama alta para el mercado de consumo, ahora analicemos los datos
...

En la siguiente  diapositiva revelada por AMD se puede apreciar que los procesadores vendrán "segmentados" por así decirlo (aunque pareciera un modulo, no lo es), cada segmento incluirá 4 nucleos y 8MB de cache nivel 3.


¿Que nos revelan estos números?

  • Segmentos de 4 nucleos
  • 8MB de cache nivel 3 por segmento
En un pequeño análisis podemos deducir que, para armar un procesador de 32 nucleos se necesitan 8 segmentos 8 x 4 nucleos = 32 nucleos, lo que también significarían 64MB de cache nivel 3, 8x8MB = 64MB, aunque ya me parece tremendo que tengan 2MB cache nivel 3 por núcleo, pero esto debe ser por el SMT, cada núcleo significara 2 procesadores para el sistema operativo, lo que necesitara no solo mucho ancho de banda, sino también mucha memoria disponible para evitar cuellos de botella al nivel de la unidad, pero no hablemos de esto ahora...

A ver si se dieron cuenta de algo... para 32 nucleos se necesitan 8 unidades o segmentos de 4 nucleos, 8 unidades coinciden con los 8 canales de memoria DDR4 que mencionan los artículos, entonces...

¿será un canal de memoria por unidad?
Esta descripción cae perfectamente en los datos entregados hasta ahora, 8 unidades o segmentos forman 32 nucleos para el Opteron, cada segmento dependerá de un canal de memoria, entonces se viene la otra duda, como estamos especulando sobre los procesadores de escritorio, surgen las siguientes dudas:
  • ¿Cuantos nucleos tendrán los procesadores y APUs de escritorio?
  • ¿Cuantos canales de memoria tendrán?
Primero pensemos que estos procesadores vienen a competir, no solo en rendimiento, sino también en consumo eléctrico, temperaturas, overclocking, etc... Entonces por los datos entregados ya, podemos asumir que no vendrán con muchos nucleos, esto generaría mas temperatura, menor margen de overclocking, limitaría las frecuencias base, por el silicio invertido serán mas costosos los productos topes, entonces asumiremos que:
  • Los modelos topes contaran con dos unidades o segmentos, lo que sumarían un total de 8 nucleos físicos, debido a la tecnología SMT tendremos 16 procesadores para el sistema operativo. la misma cantidad de la competencia para los productos tope de gama.
  • Posiblemente tengan un canal de memoria por unidad, al igual que los Opteron, lo que lo dejaría con 2 canales de memoria de 64-bit, sumando 128-bit DDR4 a frecuencias aun no conocidas. si dos canales de memoria les parece poco, recordemos que estos módulos vendrán con frecuencias mínimas de 2,133 MHz, si hacemos un pequeño calculo...
           2,133 MHz por 128-bit entre 8-bit = 34.1 GB/s teóricos ¿Les parece poco?

-- Ahora, en el caso de las APU, si seria algo limitado para las GPUs integradas las cuales son muy dependientes de ancho de banda y bajas latencias en memoria RAM. Entonces... ¿Las APUs si vendrán con 4 canales de memoria para tener un ancho de banda efectivo para las gráficas integradas de próxima generación?

Esto no lo podemos determinar con precisión, pero si leen mi articulo completo comprenderán que tener 4 canales de memoria no es necesario para la próxima plataforma ¿Por qué? en un momento se los diré, pero primero...

Diferencias notables entre la ultima generación del diseño modular y la primera generación de "Zen", enumeremos...


Ventajas del diseño modular en comparación con arquitecturas anteriores:
  • Unidades FPU mas completas, con nuevos conjuntos de instrucciones
  • Menor área ocupada por ambos procesadores lógicos
  • Menor cantidad de silicio utilizado
  • Menor cantidad de transistores
  • Menor consumo eléctrico
  • Etc, etc, etc
Ventajas de las unidades "Zen" en comparación con el diseño modular:
  • Proceso de fabrica al a la mitad de nanometros, 14nm Fin-Fet equivale a menos de la mitad de área por transistor que la actual 28 nanometros "HP" lo que genera las siguientes ventajas.
  • Menor silicio utilizado
  • Menor área de DIE
  • Menor consumo eléctrico total
  • Mayor cantidad de cache nivel 1 por núcleo, como saben el diseño Modular viene con apenas 16kB de cache de datos por núcleo,  ahora cada  núcleo contara con 32kB
  • El DECODE puede acceder al programador de ENTEROS y al programador de FPUs simultáneamente desde ambos procesadores lógicos, la ventaja seria que un procesador no accede a los recursos sin que el otro lo sepa, así se evitan conflictos por los recursos y mejora el rendimiento tanto en monohilo como en multihilo.
  • Unidad MMX mas grande, esto permitiría mayor rendimiento en aplicaciones que ejecutan códigos legacy
  • Unidades FMAC de 256-bit, aparentemente una dedicada para cada procesador lógico, en otras palabras ya no se necesita combinar ambas unidades FMAC de 128-bit para ejecutar una instrucción moderna, ejemplo AVX o FMA, en el diseño modular esto implicaba un pequeño cuello de botella que no permitía aprovechar el máximo potencial de cada procesador lógico, sino que ambos se combinan para lograr el proceso.
Dudas:
  • Aun no sabemos el tamaño del Pipeline que tendrá, el Pipeline podría definirse como la cantidad de pasos o "etapas" que debe realizar el procesador para ejecutar un proceso, mientras mas corto sea el Pipeline, mas rápido llegara la información a las unidades de Enteros y Punto Flotante y así mismo los datos serán procesados mucho mas rápido, sino existe cuello de botella en la salida y aunque no sabemos esto, tenemos un tip...
El Pipeline de los módulos en el diseño de la Arquitectura actual cuenta con 20 Etapas ¿Muy lento? bueno, en ciertos entornos no es malo tener un Pipeline poco agresivo, por ejemplo cuando ejecutamos varias aplicaciones al mismo tiempo, tardar en preparar los procesos posteriores, permite a los procesadores terminar los procesos anteriores sin que se interrumpan ninguno de los dos, sin que uno afecte al otro, por eso los usuarios  de los procesadores FX no experimentamos problemas al ejecutar juegos, descomprimir y/o convertir formatos al mismo tiempo. Ahora la duda es:
  • ¿De que tamaño será el Pipeline de Zen?
Como sabemos la Arquitectura "Zen" esta basada en la Arquitectura ganadora "Stars", la cual abarca desde K8 hasta K10.5+ y K11, los procesadores AMD Athlon, Sempron, Phenom, Opteron, incluyendo los actuales "Jaguar", y "Puma+" presentes en los procesadores Carrizo-L, y su Pipeline tan solo cuenta con 12 etapas, uno de los mas cortos en los últimos 15 años de procesadores x86, superado por la Arquitectura K7 que posee un Pipeline de 10 Etapas y este superaba a los Pentium de primera, segunda, tercera y cuarta generación de los zócalo 478 y 775 los cuales contaban con Pipelines de 20 etapas en el caso de las dos primeras generaciones "Willamette" y "Northwood" y 31 Etapas en el caso de "Prescott" y "Cedar", perdón por abundar tanto, pero si lo vemos así, Zen también podría contar con este agresivo Pipeline de 12 etapas, pero necesitara de un diseño muy riguroso para no tener cuellos de botellas internos (conflictos entre los conjuntos de procesadores lógicos por Unidad), ahora, si eliminan todos los conflictos con un diseño competente para la situación aparecen las próximas dudas:

  • ¿Este Pipeline sera suficientemente rápido para competir en todos los entornos, tanto en monohilo como en multihilo?
Yo diría que si, si evitan todos los cuellos de botella internos, los conflictos entre ambos procesadores lógicos y considerando que el Pipeline de los procesadores Intel de las ultimas 5 generaciones es de 16 etapas, claro que un Pipeline de 12 Etapas seria suficientemente competente...

En las diapositivas entregadas por AMD se puede apreciar que ofrecen un 40% mayor IPC (mayor cantidad de Instrucciones Por Ciclo o en otras palabras podrá ejecutar 40% mayor cantidad de instrucciones por cada Mega Hercio) que la generación actual, recuerden que la generación actual esta basada en la cuarta generación del diseño modular o nucleos "Excavator" los cuales en promedio rinden 9% mas mas por ciclo que la tercera generación, nucleos "Steamroller" los cuales rinden hasta 9% mas en monohilo y hasta 18% mas en multihilo que la generación anterior.

Ahora bien, el "IPC" o "Instrucciones Por Ciclo" no reflejan un rendimiento proporcional, si comparamos de generación en generación, así que un 40% no refleja que rendirán 40% mas que la generación actual, no dice si rendirá mas de 40% extra en monohilo, para poder descifrar esto hay que tomar tantas variables que seria difícil explicarlo, pero, aunque este 40% teórico sea 25% real en monohilo, en multihilo el rendimiento por procesador lógico será significativamente enorme en comparación con cualquier procesador de la Arquitectura Modular, ya sea una APU gama media o baja o un FX de gama alta. ¿Por qué?

Los procesadores basados en la Arquitectura ganadora "Stars" no tienen perdidas de rendimiento entre mono y multihilo ni de un 5%, si comparamos esto con la Arquitectura actual la cual refleja perdidas de entre 9 y 21%, 9% en caso de las dos ultimas generaciones "Steamroller" y Excavator", 21% en caso de las dos primeras generaciones "Bulldozer" y "Piledriver", esta es la mayor desventaja de estos procesadores.

Pero pensemos ahora son 2 procesadores lógicos por núcleo, entonces esto generara perdidas enormes tanto en mono como en multihilo, la respuesta es que podría generar perdidas notables (obviamente), pero si comparamos el diseño de nucleos de "Zen" con los últimos "Stars", Phenom II para la gama alta del zócalo AM3 y Llano para gama media zócalo FM1, estos cuentan con 3 Pipelines de ENTEROS, FPUs de 128-bit y 3 DESCODIFICADORES x86 por nucleo, ahora "Zen" cuenta con 6 Pipelines de ENTEROS por núcleo, osea que cada procesador lógico también contará con 3 Pipelines de ENTEROS ¿Daria el mismo rendimiento por procesador lógico que el Phenom II? Yo digo que no pues ahora viene lo mas notable... las unidades FPU en este caso serán de 256-bit por procesador lógico, lo que sumaria un total de 512-bit y aunque esto no refleje un cambio de rendimiento proporcional, esto le permitirá al procesador ejecutar instrucciones de 512-bit, osea que podrá ejecutar las instrucciones AVX y FMA en modo de 512-bit y considerando que la Arquitectura "Stars" no es capaz ni de ejecutar instrucciones de mas de 128-bit lo deja muy por debajo de los procesadores actuales en instrucciones avanzadas, ademas de esto, el "Zen" podrá ejecutar todo el conjunto de instrucciones que los FX y APUs actuales ejecutan, con mayor velocidad obviamente, ademas añadiendo nuevas instrucciones.

Encuentra la tercera diferencia entre "Stars" y "Zen" xD

Como dije la Arquitectura "Stars" cuenta con 3 DESCODIFICADORES x86, Zen contará obviamente con 6, si 6! serian 3 por procesador lógico, pero considerando que estas unidades no están dedicadas a cada procesador lógico, podríamos asumir que uno de los procesadores lógicos podrá abarcar entre 2 y 4 de estas unidades, mientras que en el otro procesador lógico se ejecutaran las restantes (para no perder el Multihilo), considerando que las ultimas 5 generaciones de Intel Core I solo cuentan con 4 DESCODIFICADORES x86 por núcleo las cuales se dividen entre dos procesadores lógicos en el caso de los i3 o i7 al ejecutar dos procesos simultáneamente por núcleo gracias al SMT de Intel "Hyper Threading", dejaría al Zen en una posición técnica igual para el rendimiento en Monohilo y 50% para el Multihilo teórico de cada núcleo, pero no podemos asumir nada y solo especular hasta ver y/o realizar las pruebas.

Y por fin hablare de por que las APU basadas en "Zen" no necesitaran 4 canales de memoria, que conectará a los nucleos en los diferentes productos, cuales son las desventajas y ventajas de unificar los zócalos AM3+ y FM2+ en un nuevo zócalo AM4, diferencias entre las próximas APUs y FXs
  • No necesitan 4 canales de memoria debido a que existen las memorias HBM, las memorias utilizada por la gama de GPUs AMD Radeon "Fury" cuentan con un bus de datos de 4096-bit a 500MHz DDR (1GHz efectivo) lo que resulta en un ancho de banda notable de 512GB/s teóricos, mucha diferencia comparados con un DUAL CHANNEL DDR4 o incluso frente a un QUAD CHANNEL DDR4, tendría suficiente ancho de banda para no limitar el rendimiento de ninguna GPU Integrada en APU sin importar la cantidad de Núcleos "Radeon" que tenga (recuerden que las R9 Fury X y Nano vienen con 4096 Núcleos "Radeon" y no tienen cuello de botella por poseer tan solo 4GB de RAM gráfica), ademas de esto, viene HBM2 con mas ancho de banda teórico, podríamos ver APUs con 1 o 2GB de RAM gráfica de alta velocidad.
  • ¿Qué conectará a los nucleos "Zen"? en el caso de las APU posiblemente no exista una memoria Cache de nivel 3 para limitar al rendimiento en comparación con la gama alta, lo que pasa actualmente entre los FX y las APU, no podemos esperar que la conexión entre nucleos sea de una barra cruzada como se ve en los FXs, sino algo como se ve en Carrizo y Carrizo-L, se me había olvidado considerar que estos procesadores/APU no serán tan solo procesadores/APU sino que serán SoCs (Sistemas en un Chip) osea que todos los controladores básicos de una placa base estarán integrados o (conectados directamente) en el procesador, esto ahorraría un montón de silicio y generaría un menor consumo eléctrico para la plataforma en general.
  • Una desventaja de unificar los zócalos es que para obtener los nuevos procesadores o APUs tendremos que cambiar la placa base y la RAM, algo que pasa muy seguido en la competencia, digamos como que cada dos años... entonces no es tan negativo, considerando el cambio que obtendremos al pasar de AM3/+ o FM1/2/+ a AM4
  • Una ventaja de unificar el Zocalo es que nos permitirá decidir cual procesador gama de procesador elegir sin tener que cambiar la placa para cambiar entre una gama y otra, obtendremos productos basados en la arquitectura actual, con un buen precio "Bristol Ridge", APU basadas en Zen "Summit Ridge" y procesadores de gama alta "FX"
  • Diferencias entre las próximas APU y FX, como unificaran la plataforma podríamos pensar que no habrán diferencias notables ademas de la GPU o la cache nivel 3, sin embargo debido a que las APU son gama media y baja y los FX gama alta, estas son algunas diferencias.
    • Las APU vendrán con GPU obvio, GPUs de hasta mas nucleos (si estas GPUs rendirán mejor que las de la Xbox One), las GPUs actuales cuentan con hasta 512 nucleos "Radeon" y la consola Xbox One 768 de estos, la próxima generación de GPUs AMD también estará basada en Fin-Fet 14 nanometros, así que podríamos pensar en APUs con entre 896 y 1024 nucleos "Radeon" dejándolas cercanamente a una PlayStation 4, la cual cuenta con 1152 nucleos "Radeon" pero lo interesante de esto es que podrían traer 1 o 2GB Memorias HBM2 las cuales son fáciles de integrar en los chips de procesadores como se puede apreciar en las Gráficas R9 Fury, y como las APUs no están destinadas a oveclocking dudo que la memoria integrada afecte al usuario negativamente y debido al overclocking no podemos esperar que los FX "Zen" cuenten con una cantidad de esta memoria, no es necesaria fuera del GPU y no ayudaría positivamente.
    • Las APU podrían no contener cache nivel 3, esto para no canibalisar con la gama alta de la misma plataforma, dejando les a los usuarios un espacio de rendimiento para decidir.
    • Los FX no contaran con GPU integrada, mucho menos con memoria HBM o salidas de video debido a que esto solo afectaría negativamente al overclocking y estos procesadores vendrán enfocados en esto al contrario de las APU.
    • Los FX podrían venir con hasta 32 Lineas PCIe 3.0 lo que es permitiría configurar 4 tarjetas gráficas simultáneamente, ya sean AMD o de la competencia, ademas de esto podrían incluir hasta 12 lineas PCIe 2.0 para otros fines, aunque los harían algo demandantes de energía tampoco es algo imposible, mientras que las APU podrían verse limitadas a 16 lineas PCIe 3.0 solo permitiendo conectar dos gráficas en dos puertos PCIe 3.0 que se configuraran a 8x en placas base con 2 o mas puertos para gráficas.
    • Las APU podrían no tener mas de 4 nucleos ni la tecnología SMT, para no canibalisar con los modelos mas bajos de la gama alta "FX" las APUs podrían ser limitadas a 4 nucleos sin SMT lo que reflejaría 4 procesadores lógicos en el sistema operativo, aunque son suficientes para la mayoría de aplicaciones 4 procesadores son mas que suficientes... de igual manera no vean esta optimizan como definitiva, pues si podrían haber variables con 8 procesadores lógicos.
    • Los FX vendrán con hasta 16 procesadores lógicos, 8MB cache nivel 2 y 16MB cache nivel 3 y lo mas probable sin cache nivel 4, debido a que 2MB por núcleo o 1MB por procesador lógico es mas que suficiente memoria para cualquier proceso si el procesador esta bien diseñado, consideremos que los procesadores de la competencia tienen años limitados a (apenas) 256kB de cache nivel 2 por núcleo y miren como rinden en mono y multihilo...
Y no olviden que "Zen" se refiere al Zenit, que en Astronomía se refiere a una linea imaginaria que va hacia el infinito por encima de nuestras cabezas, pues esperemos que esto se demuestre al momento del lanzamiento y AMD nos de un rendimiento competente que considere un cambio de equipo con una razón solida, si les gusta el contenido, no olviden compartirlo con sus amigos, les saluda EL ENSAMBLADOR, Feliz resto del día!

Pueden seguirme en las siguientes paginas y por su puesto en mi canal de Youtube:


5 comentarios:

Iván Barra M. dijo...

Excelente, muy bien documentado!

Amet Monegro dijo...

Gracias Ivan, y como has estado? tanto tiempo, ya casi no paso por MADBOXPC, después que nos sacaron del foro perdió fuerza por eso publico por mi mismo.


Saludos!

Gastón Adonay dijo...

Genial, y como te decía anteriormente en otro comentario: "No tengo la menor duda que a la hora de actualizar un equipo va a ser muy difícil de hacer si no estás enterado de todo lo que está pasando con todas estas tecnologías y arquitecturas electrónicas". Al respecto se que hay mucha gente ensamblando, pero no tiene idea de todo esto, así es que será muy posible que se armen equipos cuyas partes ensambles funcionen, pero no para lo que correctamente queramos, esto no quiere decir que no funcionen, todo lo contrario, pero es indudable que mientras más impredecible se muestre el panorama acerca de estas cuestiones, más va a ser la dificultad de hallar o de discernir el hardware adecuado para actualizar después de años. Hoy en día el mercado electrónico es así, dos años para funcionar y dos más para dejar de ser.

Una vez más, te felicito por tu excelente exposición, la cual no deja dudas de qué camino probable que tomar, para quienes estamos más o menos inmerso en este ámbito.

Si hay personas que estén comprometidas en el desarrollo del hardware y todos sus derivados, es evidente que primero tienen que pasar por aquí (El Blog Del Ensamblador), no me lo saco de la manga, soy testigo de este chico, lo vengo siguiendo hace años, digamos que de adolescente y la verdad que el tipo es talentoso, es decir no tiene copy-paste y no repite lo que otros dicen, me atrevo a decir que está a la altura de DioxCorp o superior. Ojalá alguien lo descubra.

Saludos

Amet Monegro dijo...

Bueno, gracias por estar atento a mis publicaciones

¿sabe?
una de mis frases favoritas es una de Henry Ford la cual dice:

"Pensar es un trabajo duro por eso pocos lo hacen"

Cuando hay un tema que me interesa, la veo, la investigo, la analizo (la pienso) y escribo.


Saludos

franco dijo...

The Leaked FX , will come with integrated video, "the future is fusion " .