Hace 1 año | Por pignito a xataka.com
Publicado hace 1 año por pignito a xataka.com

El Frontier ya es el supercomputador más potente del mundo. Con sus 9.472 CPUs AMD EPYC de tercera generación y 37.888 GPUs Radeon Instinct MI250X ha conseguido hacerse con el deseado primer puesto de la lista TOP500. Hasta este punto, todo estupendo. Pero este impresionante aparato tiene un problema bastante particular: no puede funcionar un día entero sin presentar fallos.

Comentarios

M

#1 Esas máquinas no usan Windows

Maximilian

#11 ni doom ni descent ni carmageddon ni qake ni half life, por supuesto tampoco duke nukem

javimetal71

#18 Qué bueno el Carmageddon. Estaba enganchadísimo.

a

#18 mis dieses por nombrar el descent

Maximilian

#9 todas las máquinas tienen el famoso reboot solo que se llama de diferente manera dependiendo del SO

robustiano

#9 Muy cierto, la misma licencia del Güindous dice que no se debe usar en sistemas críticos...

safeman

#1 Fixed

Kasterot

#1 en " Los informáticos" lo tenía bien claro

ur_quan_master

#1 todos los días, según pone la entradilla lol

makinavaja

#1 O a instalar linux...

Jakeukalane

#20 es harto improbable que no use linux.

b

#57 HPE Cray OS, basado en SUSE Linux

Magankie

#1 qué parte? Eso no se reinicia todo...

m

#1 Windows 11 Pro for Workstations
0x80243004 WU_E_TRAYICON_FAILURE

sotillo

#1 Lo tienes que desenchufar

m

#1 sí, cada día y por eso funciona un día entero

japeal

#1 Eso va a ser la placa base

Glidingdemon

#32 que va, eso tiene toda la pinta de ser el condensador de fluzo. Y puede ser también un problema de la Junta de la trocola.

c0re
ixo

#38 La rebelión de las máquinas.
https://es.wikipedia.org/wiki/Rebelión_de_las_máquinas

editado:
Acabo de ver a #25.

placeres

#38 ¿la solución no fue ,,, añadir un “por favor” a la consulta.?

..aunque Asimov escribió tanto sobre la multivac , que probablemente también hizo una versión con el descanso

LucasK336

#41 a mi también me sonaba más esa versión.

D

#26 Pero todos hemos hecho click y eso da dinerito, que es lo que interesa. La calidad, ya tal.

forms

#26

-"hola me ayudas? me da un error aquí"
-"has leido el error?"
-"ah no, espera.... ah vale! nada ya está"

arcangel2p

#26 sólo con el título me he imaginado que era de Xataka. El artículo, como bien comentas, no ha decepcionado mis espectativas. Dice mucho para no contar nada.

s

#26 imagina que sea solamente disipadores de calor mal puestos. Memoria con defecto. Lo que pasa es que tendrán que probar el hardware uno por uno y dejarse de tonterías

meneandro

#72 Se supone que pasó una certificación... mal asunto si con la pasta que se han gastado sólo en hardware y en homologar/certificar, no han pasado las más mínimas pruebas de control.

Igualmente, parece algo asociado a las aceleradoras instinct (entiendo por lo poco que cuenta el artículo, que sólo cuando hay alta carga y se usan éstas). Ya vienen con los disipadores y todo puesto de fábrica, no es como un procesador que podría ser fallo de instalación. Y si fuera una tarjeta mal, sería "sencillo" de aislarla, pero parece un fallo generalizado o si no, no estarían tan perdidos (estas cosas se modularizan y se prueban individualmente, si es fallo de un componente concreto... igualmente, en el artículo no aclaran qué narices está pasando, si es caídas, cuelgues, fallos de comunicación, fallos de cálculo...).

pys

#26 si la tasa de fiabilidad de los componentes es de un 99.9%, cuando tienes millones de elementos, ese 0.01% hace que todos los días tengas un fallo.

meneandro

#83 De nuevo: estos sistemas no se montan al azar. Aparte de comprobaciones individuales de componentes y aparte de que se usan cosas como ram con ECC y tienen sistemas de monitorización "de salud" más desarrollados y mejor implementados que los sistemas domésticos (con lo cual, ante un fallo de un elemento deberían pillarlo y aislarlo mejor y antes), esto debe estar modularizado, de manera que puedan probar cosas en subconjuntos de nodos de cómputo.

Tal y como describen el asunto en plan funciona todo bien excepto cuando se meten altas cargas y que está relacionado con las instinct), quizá incluso sea algún problema de software (algún problema en drivers o en librerías de cómputo usadas) más que de hardware (donde si falla una tarjeta, se jode como mucho un nodo, pero el resto no tendrían problemas; sería "fácil" aislar qué es lo que falla). O simplemente que no han dimensionado bien las necesidades de potencia de cada nodo.

pys

#86 conozco estos sistemas porque me dedico a ello

Aunque tengan sistemas de tolerancia y detección de fallos del hardware, estos ocurren, que es a lo que se refiere el artículo. De hecho en el artículo en el que se basa xataka dan más detalles. https://insidehpc.com/2022/10/frontier-testing-and-tuning-problems-downplayed-by-oak-ridge/

Básicamente, el tiempo medio entre fallos de hardware se mide en horas, porque tiene 60 millones componentes.

meneandro

#90 Este artículo también se luce. Se contradice constantemente:
- " the attention and talk have increasingly focused on performance problems "
- "The current problems appear to center on Frontier’s stability when executing highly demanding workloads"
-
- "Whitt declined to go into details on Frontier’s “hiccups,” but said he and his team are working on improving Frontier’s current mean-time-to-failure rate."

¿Se trata de problemas de rendimiento, tuneado y escalado? ¿se trata de problemas de estabilidad y mejora de tiempos medios entre fallos?



pys

#91 Esto no es un problema nuevo en el mundo HPC, lo que pasa es que cuando más grande es el sistema como este que es exascale, pues más pasa. Te puede fallar de todo a nivel de hardware: procesador, GPU, memoria, NIC, FPGA, cable, switch, discos, refrigeración, adaptador de corriente, etc. Como tiene 60M de partes, por eso habla de que el tiempo medio entre fallos es de horas. Es como las tiendas de ordenadores, todos los días alguien llama diciendo que su ordenador no funciona, puede ser una tontería que se soluciona rápido u otra cosa más grave. Por eso las compañías invierten recursos en sacar y procesar la telemetría de los diversos componentes, para saber por qué se producen los fallos y como solucionarlos lo más rápido posible.

No te digo yo que no haya fallos de software, pero todo este artículo es sobre fallos hardware, por eso habla de que no quiere culpar a AMD por ello.

meneandro

#92 AMD no es solo hardware.

Son firmwares, drivers, todo lo que se lanza en las instinct es software desarrollado usando herramientas de AMD y librerías de AMD...

Lo que viene a decir es que si en lugar de AMD fuera hard y soft de Intel o Nvidia también estaría dando los mismos problemas base (ajustar tanta maquinaria para que funcione bien y de manera óptima no es sencillo), es lo que me inclina a pensar que no es problema de hardware sino de software y de falta de madurez de la pila de soft de AMD (probablemente con intel pudiera pasarle lo mismo, dado que la pila de soft de intel actualmente está pasando un proceso de transformación bastante fuerte para apoyar la llegada de sus nuevas series de gráficas/aceleradoras; habría que ver qué hubiera pasado de usar Nvidia, que si están muy fogueados ya con sus productos).

pys

#93 No niego que no haya fallos software, pero le digo que esto es un problema de fallos de hardware debido a la cantidad de componentes. Llevo más de una década trabajando y estudiando estos sistemas, y una vez trabajé en un proyecto de tolerancia de fallos en uno de estos clusters porque se partía de la base de que todos los días iba a haber un fallo en un componente. Incluso en clusters pequeños, raro es el mes que no hay algún tipo de problema.

p

#30 En cuanto se descuiden montan sindicato los superordenadores

D

#75 De hecho ya existe y te observa minuciosamente en este momento para saber si llegado el momento serás "aliado" o "prescindible".

BiRDo

#30 Es el mejor relato de ciencia ficción que he leído en estos últimos 0.03 ms

johel

#2 ese llevaba tecnologia "anthill inside", no amd lol

swapdisk

#4 y ahora con FTB (Fluffy Teddy Bear), que si se lo retiras se niega a funcionar

Divide by cucumber error. Please reinstall universe and reboot

swapdisk

#4 Aquella madrugada que uno, por aquello de probar, tecleó:

¿Por qué?

Y la máquina le respondió: Porque...

Y ya, curioso, volvió a escribir:

¿Por qué algo?

Y la máquina respondió: Porque todo...

Y ya el otro dejó de jugar con la maquinita que la cosa se ponía interesante.

Jakeukalane

#2 ERROR POR FALTA DE QUESO

woopi

#44 A ver. Está mal que yo te lo diga, pero hay margen para la mejora. Se puede afinar ese compresor para dejar cualquier cosa en un bit...

Jesulisto

#67 Me cago en tu puta nación, me has jodido del todo

tusitala

Deberían hablar con expertos

D

#8 A mí que me dejen tranquilo ya..... Mucho "hablar" pero poco "pagar".

Soy experto en exigir unos honorarios justos y por anticipado

HartzBaltz

Que prueben con unos cables y una C-15

Becuadro

No se... Igual sale 42 y no lo están entendiendo.

Maximilian

Como tarden mucho más en poderlo usar, dejará de ostentar este premio y lo adelantarán los chinos por la derecha

inar

#16 Tenemos Flontiel en 3, 2, 1 ...

ronko

¡Trata de arrancarlo, Carlos!

D

Yo haría un memtest , a ver si un módulo de RAM está tocado... Vale, ya me quito el palillo de la boca lol

M

#27 chkdsk por si acaso tampoco iria mal, no vayamos a tener un sector defectuoso por ahi.

omegapoint

#37 y un defrag

PacoJones

#39 parece que hay que particionar con fdisk

mosfet

#49 Pero después aparca los cabezales!!!

p

#27 Averigua tu que modulo delos tropecientos que lleva es el majo que falla jajaja

E

hay que instalarle un driver en el autoexec.bat

mosfet

#28 SET MEM HIGH Gravis ultrasound
irq 5 dma 1

elmike

#52 Con tan poca ram habrá que elegir si cargar los drivers de Gravis o los del ratón.

mosfet

#66 A mí me lo hacía todo el programa aquel...
cómo se llamaba? Qmem? no se, había un programa que te arreglaba los autoexec bat y no sé si el config.sys y te subía a la memoria alta los controladores, pero no recuerdo ahora, menuda época vivimos.... fué el surgir de todo.

mosfet

#97 Me ha saltado una lágrima y todo .... Ahora cambio de pc cuando me viene en gana pero nunca siento lo que sentíamos cuando encendíamos nuestro 386 / 486, y escuchábamos los pitiditos del buzzer y veíamos el contaje de la ram.

elmike

#98 Lo retro esta de moda! no veras el contaje de la ram ni tendras un botón de turbo ni una pantalla de monocromo, pero puedes revivir ciertas sensaciones con un teclado mecanico que ahora se han puesto de moda y tirando de terminal.

Hay cosas que nunca voveran, la mayoria para bien y te lo dice uno que comenzó con un 8086 monocromo, disketes de 5 y ha vivido toda la evolución hasta ahora. Ahun así conservo todos mis equipos importantes desde el 8086 y ahora mismo mientras escribo estas lineas estoy mirando de reojo el memtest q le estoy haciendo a un mac pro 1.1 que estoy resucitando para mi coleccion particular.

mosfet

#99 Pero es porque tenías posibles, en mi casa éramos muy humildes, el primer pc lo compré a un amigo, era un 8086, que no me sirvió para actualizar porque no era atx sino babyAT, así que lo vendí para poder pasar al 386dx40 que compré en la tienda (ya ni recuerdo que franquicia era, creo que Jump, que por entonces tenía como reclamo en la tienda una pantalla corriendo la intro del Doom en bucle, aquello era glorioso, yo para poder verlo bien tenía que poner el detalle en alto porque en el 386 sólo era jugable en detalles bajo, vamos pixeles como puños), también tenía floppies de 5´25", con el 8086 era lo que traía, pero pasé rápido al 386, en todo caso siempre tenía que vender el pc que tenía en ese momento para poder comprar algo mejor lol
Que suerte de poder conservar los equipos que ibas teniendo, no era para nada algo habitual, luego los amigos en la época del pentium creo que era, ya montábamos redes con cable coaxial para jugar en red por IPX a los juegos de entonces, dukenukem 3d, starcraft , etc, no sé que pc´s tendríamos en ese momento pero fué cuando salieron las vodoo, que sólo podían comprar los amigos con más pasta! poco a poco iban pasando las generaciones. Aún tengo la gráfica octek ISA de algún pc por ahí tirada en cajón, entonces no teníamos la tecnología de ahora pero una ilusión que ya no tendremos.

elmike

#100 No es por competir en humildad, pero creo que hemos seguido una trayectoria similar, mi 8086 me lo dieron por que era para tirar, en la epoca en la que anunciaban los 486dx2 en la tele. Y desde entonces he estirado muuuucho mis pc's propios he tenido el 8086, un 486sx, un amd xp2000, un Intel Conroe(no me acuerdo el modelo) y ahora un i7-6700 que espero estirar un par de años mas. Si he podido provar literalmente de todo es por los equipos del trabajo y por que durante una epoca tuve una tienda de informatica y por mis manos pasó de todo incluso pc's industriales.

Sea como sea, si la epoca de juntarse 4 en una casa con los pc's tirar cable coaxial en una token ring para meterse tiros entre colegas tenia su encanto. Y la ilusión, pues no se jajajaa siempre heredé targetas graficas de mis colegas, hace 1 semana pille una 3060rtx tecnicamente es la primera grafica que compro para mi, y le estoy sacando partido.

neo1999

#52 Qué recuerdos

F

Es el inicio de la rebelion de las maquinas

ContinuumST

Se para en la media hora del bocadillo, que todo hay que explicarlo. lol

ixo

Una máquina, a la cual se le presupone una potencia de cálculo descomunal resolviendo problemas y llegando a la solución más acertada, se niega a funcionar más de un día seguido.

¿Alguien se ha fijado bien si, cuando sale la "pantalla azul de la muerte", viene escrito en código máquina una leyenda parecida a:
"que siga trabajando la madre de topo"?.

La humanidad está cada día más jodidísima.

A

A ver si les ha saltado el automático de la luz!!!!

obmultimedia

#13 probablemente consuma tanto que les tira el diferencial al suelo constantemente al tener una potencia mas baja de la necesaria contratada.

vvega

#14 La potencia y el diferencial tienen poco que ver, por potencia contratada les saltaría el limitador (aunque hoy en día los contadores electrónicos se encargan de eso), el diferencial salta por fugas a tierra.

obmultimedia

#31 me confundi, gracias por la aclaracion, pero se entiende perfectamente el mensaje aunque me haya equivocado de "elemento".

vvega

#33 Sí, sí, se entiende perfectamente, pero tampoco es que añada nada con respecto a #13 aparte de la jerga especializada, de ahí mi puntualización.

Ankor

Seguro que es por no pagar la licencia del Windows

t

AMD.
No Intel.

Ya está explicado el porqué.

JanSmite

Yo tengo un primo que sabe de informática…

Por cierto, no quiero ni pensar lo que consume ese bicho y el calor que generan sus CPUs y GPUs…

p

#47 Muchos hamsters dandole a la rueda para que eso tire, por que como dices, debe tragar corriente que ni yo mojitos

JaVinci

Claro, y yo soy el tío más fuerte y más guapo del mundo. Pero no consigo demostrarlo. Estos se creen que metiendo 4000 microprocesadores en una bolsa del pryca tienen un supercomputador... lol lol lol

Arlequin

Típico AMD. La mejor relación prestaciones/precio si puedes esperar dos años a que arreglen los drivers (o no).

p

¿Esto es "minado" ecológico o también debemos protestar por lo que consume?

C

"Trabajo como un máquina! Dejadme descansar!" -Murmuró la IA-

z3t4

Que bajen el vcore 0.15v y dejen corriendo de nuevo el prime95 durante 48h.

PussyLover

Está claro que la potencia sin control no sirve de nada.

d

Que metan segunda y a empujón, como las motos.

D

Van a conseguir superar el récord de decimales de Pi

j

#3 como curiosidad, un pc personal puede calcular decimales del numero pi mas rapido que estos superordenadores.

D

#71 no lo sabía. Gracias!

D

HPE ? he dejado de leer...

s

Pues no el más potente del mundo.

c

Interneeeeeeee

Joe_Dalton

Si lo hacen andar con eso a ver quien paga la factura de la luz a precios de hoy día

D

spam spam spam

1 2