Jaguar

Oak Ridge National Laboratorys Cray XT5 Jaguar Supercomputer
Gustavo Zechlinski1
1
Programa de P s Graduacao em Inform tica Universidade Cat lica de Pelotas o a o Rua F lix da Cunha, 412 96.010-000 Pelotas RS Brazil e
gustavo.mata@ufpel.edu.br
1. Hist rico o
A Cray Inc. iniciou a sua hist ria em 1972 quando o lend rio Seymour Cray, o pai da o a supercomputacao fundou a empresa Cray Research. A pesquisa, o desenvolvimento e a manufatura caram localizados no centro de Chippewa Falls, Wisconsin enquanto que o escrit rio de neg cios cava em Minneapolis, Minnesota. O primeiro sistema Cray-1 foi o o instalado no Laborat rio Nacional Los Alamos em 1976 por 8,8 milh es de d lares. Este o o o sistema bateu o recorde mundial de operacoes de ponto utante por segundo, chegando a 160 megaops e de mem ria principal, alcancando 8 megabytes (1 milh o de palavras). o a A arquitetura de Cray-1 reetia bem a inclinacao do projetista para ultrapassar barreiras t cnicas com id ias revolucion rias. Com o objetivo de aumentar a velocidade do sistema, e e a o Cray-1 possua uma unica placa, o que permitia que os circuitos integrados fossem colocados juntos e bem perto uns dos outros. N o havia os no sistema que era maior a que quatro p s, aproximadamente 1,22 metros. Para lidar com o intenso calor gerado pelo e computador, a Cray desenvolveu um inovador sistema de refrigeracao usando Freon.
Figura 1. Seymour Cray
Figura 2. Cray-1 System
A m de concentrar os seus esforcos na concepcao e projeto, Seymour Cray dei xou a posicao de CEO da empresa em 1980 e se tornou um contratante independente. Como ele havia trabalhado no desenvolvimento do Cray-1, outro grupo dentro da empresa desenvolveu o primeiro supercomputador multiprocessador, o Cray X-MP, que foi
introduzido em 1982. O sistema Cray-2 surgiu 1985, proporcionando um aumento de performance dez vezes maior que o sistema Cray-1. Em 1988, a Cray Research introduziu o Cray Y-MP, o primeiro supercomputador do mundo a sustentar mais de 1 gigaop em muitas aplicacoes. M ltiplos processadores de 333 MFLOPS constituiam o sistema che u ` gando a uma velocidade recorde de 2,3 gigaops. Sempre um vision rio, Seymour Cray a explorou o uso de arseneto de g lio na criacao de um semicondutor mais r pido do que o a a silcio. Entretanto, os custos e as complexidades deste material tornaram difcil para a em presa apoiar ambos os esforcos de desenvolvimento do Cray-3 e do Cray C90. Em 1989, a Cray Research desmembrou o projeto do Cray-3 em uma empresa separada, chamada Cray Computer Corporation, encabecada por Seymour Cray, e com base em Colorado Springs, Colorado.Tragicamente, Seymour Cray morreu dos ferimentos sofridos em um acidente autom vel em setembro de 1996 com a idade de 71 anos. O fracasso do Cray-3, o devido a diminuicao da demanda por large machines com o m da guerra fria, fez com que a poltica e a parte t cnica fossem alteradas dentro da empresa, tomando rumo em e o aos projetos de m quinas massivamente paralelas. Mesmo com a desaprovacao direca a de seu fundador que era um crtico dessa abordagem, quando questionado pelo Wall Street Journal que os sistemas MPP (Massive Parallel Systems) ainda n o tinham provado a sua a supremacia sobre os computadores vetoriais, principalmente pela diculdade dos usu rios a em programar as grandes m quinas paralelas ele disse:Eu n o acho que eles ser o unia a a versalmente bem-sucedidos, ao menos no meu tempo de vida, o que acabou se tornando verdade.
A d cada de 1990 trouxe uma s rie de eventos que iria transformar a Cray Resee e arch. A empresa continuou a sua lideranca em fornecer os mais poderosos supercompu tadores para aplicacoes de producao. O Cray C90 incluiu um novo processador central liderando a ind stria de supercomputadores com desempenho sustentado de 1 gigaop. u Usando 16 desses poderosos processadores e 256 milh es de palavras de mem ria ceno o tral, o sistema impulsionou um incompar vel desempenho total. A empresa tamb m aprea e sentou o seu primeiro mini-supercomputador,o sistema Cray XMS, seguido pelo Cray Y-MP EL series e em seguida o Cray J90. Em 1993, a Cray Research ofereceu o seu primeiro sistema de processamento massivamente paralelo (MPP), o supercomputador Cray T3D, e rapidamente se tornou lder do mercado MPP de empresas novas como a Thinking Machines e MasPar. O Cray T3D provou ser extremamente robusto, con vel, a compartilh vel e f cil de administrar, em comparacao com os sistemas MPP concorrena a tes. Desde sua estr ia em 1995, o sucessor do Cray T3D, o supercomputador Cray T3E e tem sido o sistema MPP mais bem vendido do mundo.O sistema Cray T3E-1200E foi o primeiro supercomputador a sustentar 1 teraop (1 trilh o de c lculos por segundo) em a a
uma aplicacao do mundo real. Em Novembro de 1998, uma equipe cientca conjunta do Oak Ridge National Laboratory, do National Energy Research Scientic Computing Center (NERSC), do Pittsburgh Supercomputing Center e da Universidade de Bristol ` (Reino Unido) executou uma aplicacao de magnetismo a uma velocidade sustentada de 1,02 teraops.
Figura 5. Cray C90 System
Figura 6. Cray T3E System
Em outro marco tecnol gico, o Cray T90 tornou-se o primeiro supercomputador o sem os (wireless) do mundo em 1994. Tamb m apresentado nesse ano, o Cray J90 see ries se tornou o supercomputador mais popular do mundo, com mais de 400 sistemas vendidos. A Cray Research se fundiu com a SGI (Silicon Graphics, Inc.) em fevereiro de 1996. Em Agosto de 1999, A SGI criou uma unidade separada de neg cios da Cray Reo search para centrar-se exclusivamente nas necessidades unicas dos clientes de alto nvel ` da supercomputacao. Ativos desta unidade de neg cios foram vendidas a Tera Compu o ter Company em marco de 2000. A Tera Computer Company foi fundada em 1987 em Washington, DC, e se mudou para Seattle, Washington, em 1988. A Tera comecou desen volvendo software para sistemas de arquitetura Multithreaded (MTA) nesse ano, o projeto de hardware inciou-se em 1991. O sistema Cray MTA-2 apresenta uma mem ria comparo tilhada escal vel, onde cada processador tem acesso igual a todos os locais de mem ria, a o simplicando muito a programacao devido a eliminacao das preocupacoes sobre o layout da mem ria. A empresa completou a sua oferta p blica inicial em 1995 (Tera no NASo u DAQ Stock Exchange), e logo depois recebeu a sua primeira encomenda para o MTA do San Diego Supercomputer Center. O sistema multiprocessador foi aceito pelo centro em 1998, sendo depois atualizado para oito processadores. Ap s a fus o com a Cray Reo a search divis o da SGI, em 2000, a empresa foi renomeada para Cray Inc. e o smbolo a foi alterado para CRAY. Atualmente a empresa produz supercomputadores de pequeno e grande porte, sendo que o mais famoso, o Jaguar est instalado no NCCS (National Cena ter for Computational Sciences), Oak Ridge National Laboratory, Oak Ridge, Tennessee, Estados Unidos.
2. Motivacoes
Hoje em dia, os supercomputadores exercem um papel importante no cen rio cientco, os a sistemas com poder de processamento da ordem de terabytes e petabytes tem se mostrado uma ferramenta indispens vel para investigacao cientca e resolucao de problemas. As a areas que exploram largamente o uso destes tipos de computadores v o desde o teste de a novas fontes de energia e exame das din micas das mudancas de clima at a manipulacao a e de funcoes de protenas (DNA). A capacidade das m quinas com poder de processamento a
da ordem de petabytes pode expandir os avancos e abordar os mais esmagadores proble mas da esp cie humana de uma forma sem precedentes. e
3. Objetivos
O objetivo principal deste trabalho e apresentar uma vis o geral sobre a arquitetura de a hardware do supercomputador Jaguar e seus componentes bem como aspectos de software como o sistema operacional e o sistema de arquivos, salientando tamb m o tipo de e resfriamento utilizado e as areas onde o Jaguar e empregado.
4. Arquitetura
O sistema Jaguar atualmente e constitudo de 84 gabinetes quad-core do tipo Cray XT4 e 200 novos gabinetes do tipo Cray XT5, que tamb m utilizam processadores quad-core. e Ambas as partes do sistema possuem 2 gigabytes de mem ria por core, fornecendo ao o usu rio um total de 362 terabytes de mem ria de alta velocidade em todo o sistema. a o Estes dois sistemas, XT4 e XT5 est o conectados entre si e ao sistema de arquivos Spider a atrav s da sua ligacao ao SION (Scalable I/O Network), que ser descrito mais adiante. e a O sistema XT5 possui 214 nodos de servico e de I/O fornecendo uma largura de banda de at 240 gigabytes por segundo para o SION e 200 gigabits por segundo para redes e externas, enquanto que o XT4 tem 116 nodos de servico e de I/O fornecendo uma largura de banda de 44 gigabytes por segundo para o SION e 100 gigabits por segundo para redes externas. Tanto nas placas do XT4 quanto nas placas do XT5 existem 4 nodos. Os nodos ` do XT4 possuem um unico processador Opteron 1354 Budapest acoplado a 8 gigabytes de mem ria DDR-2 800 Mhz. O XT5 e uma vers o de dupla densidade do XT4, ele tem o a ` o dobro da capacidade de processamento, de mem ria e de largura de banda no acesso a o mem ria em cada um de seus nodos. O nodo do XT5 tem dois processadores Opteron o 2356 Barcelona ligados por conex es duais HyperTransport. Cada um dos Opteron o do XT5 tem acoplado 8 gigabytes de mem ria DDR-2 800 Mhz, resultando em um nodo o de soquete duplo com 8 cores e 16 gigabytes de mem ria compartilhada cujo pico da o performance de processamento chega a 73.6 gigaops. 4.1. Processadores - AMD Opteron O AMD Opteron SE de quatro n cleos e o processador de mais alta performance da AMD u ` para servidores e estacoes de trabalho, atendendo as suas aplicacoes mais exigentes. Com a Arquitetura de Conex o Direta testada e comprovada da AMD, fornece desempenho a que equilibra gerenciamento da mem ria, I/O e processamento puro. o 4.1.1. Arquitetura de Conex o Direta a A Arquitetura de Conex o Direta dos processadores AMD Opteron pode melhorar a pera formance e a eci ncia gerais do sistema eliminando os tradicionais gargalos inerentes as e arquiteturas de barramento frontal. Os barramentos frontais restringem e interrompem o uxo dos dados. Um uxo de dados mais lento signica mais lat ncia, o que se traduz e em menor desempenho do sistema. Um uxo de dados interrompido signica escalabili dade limitada do sistema. Com a Arquitetura de Conex o Direta, o barramento frontal e a ` eliminado. Em vez dele, o n cleo do processador e conectado diretamente a mem ria, ao u o
subsistema de I/O e a qualquer outro processador da conguracao, atrav s de conex es e o HyperTransport de alta largura de banda. O controlador de mem ria ca localizado na o pastilha do processador, e n o na placa-m e, como acontece na arquitetura de barramento a a frontal. Isso reduz ainda mais a lat ncia e melhora o desempenho. e 4.1.2. Controlador de mem ria integrado o Os processadores Opteron com Arquitetura de Conex o Direta apresentam um controlaa dor de mem ria integrado na pastilha, otimizando o desempenho da mem ria e a largura o o de banda por CPU. A largura de banda da mem ria da AMD aumenta de acordo com o o n mero de processadores, ao contr rio dos designs mais antigos que apresentam pouca u a ` escalabilidade, porque o acesso a mem ria principal e limitado pelos chips Northbridge o externos. 4.1.3. Tecnologia HyperTransport A tecnologia HyperTransport e uma conex o de comunicacao ponto a ponto de alta vea locidade, bidirecional e de baixa lat ncia que fornece uma interconex o de largura de e a banda escal vel entre n cleos de computacao, subsistemas de I/O, bancos de mem ria a u o e outros chipsets. Os processadores AMD Opteron suportam at 3 (tr s) conex es Hye e o perTransport, rendendo uma largura de banda m xima de at 24,0 GB/s por processador. a e Na Figura 7 e apresentada a arquitetura de um processador AMD Opteron atrav s de um e diagrama em blocos e na Figura 8 e apresentada a arquitetura de Conex o Direta. a
Figura 7. Processador AMD Opteron
Figura 8. Arquitetura de Conexao Direta
Al m das vantagens citadas o processador AMD Opteron ainda apresenta os see guintes benefcios: Protecao do investimento - Ao utilizar a Estrat gia de N cleo Comum e a Tec e u nologia de Mesmo Soquete, os processadores AMD Opteron s o projetados para a minimizar mudancas em sua infra-estrutura de software e data center, protegendo seu investimento em TI e simplicando o gerenciamento. Desempenho excepcional - Os processadores AMD Opteron de Quatro N cleos u foram projetados para oferecer desempenho ideal com aplicativos multithreaded atrav s de: e design nativo de n cleo qu druplo, apresentando quatro n cleos em uma u a u unica pastilha para maior eci ncia no compartilhamento de dados; e uma estrutura de cache aprimorada e um controlador de mem ria inteo grado, projetados para sustentar a taxa de transfer ncia de dados exigida e pelos aplicativos multithreaded. Melhorando desta forma a relacao performance-por-watt, a capacidade de resposta de TI ao mesmo tempo que mant m os custos. e Uso mais eciente da energia - Os processadores AMD Opteron de Quatro N cleos u s o as CPUs para servidor com uso mais eciente da energia que j produzimos, a a ` gracas a tecnologia AMD PowerNow! Aprimorada e a adicao da inovadora Tec ` nologia CoolCore. Essas inovacoes t m o objetivo de reduzir o custo total de e propriedade (TCO), as necessidades de energia do data center e os custos de resfriamento, ao baixar o consumo de energia da sua infra-estrutura de TI. Virtualizacao ideal - Os processadores AMD Opteron de Quatro N cleos com Ar u quitetura de Conex o Direta proporcionam a maior eci ncia do mercado na plaa e taforma de virtualizacao. Apresentando a tecnologia AMD Virtualization (AMD V) com R pida Indexacao da Virtualizacao, os processadores AMD Opteron de a Quatro N cleos podem acelerar o desempenho dos aplicativos virtualizados e meu lhorar a eci ncia da altern ncia entre as m quinas virtuais, para que os clientes e a a possam hospedar mais m quinas virtuais e usu rios por sistema, a m de maa a ximizar a consolidacao e os benefcios de economia de energia obtidos com a virtualizacao.
Certamente, devido a esses benefcios mencionados acima e outros n o divulga a dos, os processadores AMD Opteron foram escolhidos para fazer parte do supercomputador da Cray, equipando cada um de seus nodos com 1 ou 2 processadores AMD Opteron. 4.2. Sistema de Interconex o - Cray SeaStar2 a O coracao da performance para a execucao de sistemas massivamente paralelos est na a rede de interconex o entre os processadores. Nos supercomputadores Cray da famlia a XT a interconex o e feita atrav s do sistema de comunicacao SeaStar2, apresentado na a e Figura 9. O sistema de interconex o Cray SeaStar2 conecta diretamente todos os nodos a de computacao atrav s de uma topologia de tor ide 3D usando os links Hyper-Transport e o dos processadores Opteron, proporcionando um otimo ambiente de largura de banda. O sistema de interconex o SeaStar2 transmite, carrega todo o tr fego de troca de mensagens a a (MPI) bem como todo o tr fego de I/O em ambos os sistemas (XT4 e XT5). a
Figura 9. Cray SeaStar2 System
4.3. Sistema Operacional O sistema operacional escolhido para ser utilizado em cada nodo do XT Cray foi o SUSE linux adaptado para as suas necessidades, ou seja, foi criada uma vers o Cray do sisa ` tema SUSE atrav s da remocao dos servicos n o necess rios a computacao nos nodos do e a a kernel original. O resultado disso e a diminuicao das interrupcoes do c digo rodando no o sistema, fornecendo dessa forma tempos de execucao de aplicacoes previsveis e passveis de repeticao. O ambiente Cray linux, al m do sistema operacional SUSE, tamb m pos e e sui servicos de sistema, software de rede, comunicacoes e I/O e bibliotecas matem ticas, a al m de compiladores, debuggers e ferramentas de avaliacao de performance. Para a e programacao dos nodos, os seguintes modelos s o suportados: a MPI; OpenMP; SHMEM; PGAS.
O National Center for Computational Sciences (NCCS) suporta compiladores da PGI, Pathscale e GNU no Jaguar. 4.4. Aplicacoes As aplicacoes a serem executadas no Jaguar devem obedecer o sistema de batchs, atrav s ` e de um sistema de enleiramento de jobs chamado PBS Pro (Portable Batch System Professional Edition), que utiliza o ALPS (Application Level Placement Scheduler) para colocar e lancar a execucao das aplicacoes nos nodos. Essas aplicacoes devem utilizar os
padr es do MPI para o seu desenvolvimento e execucao. Um exemplo de como rodar o quatro processos MPI nos nodos pode ser visto na Figura 10
Figura 10. Job em sistema de batchs
4.5. SION(Scalable I/O Network) - Rede Interna Para uma total integracao dos componentes do sistema, foi desenvovida uma SAN (Sys tem Area Network) chamada SION. Sion e uma rede Inniband multi-est gio que coa necta todas as plataformas do NCCS. Atrav s de um link de alta performance entre os e m ltiplos sistemas, SION permite a comunicacao entre os dois segmentos do Jaguar. Nou vas funcionalidades como a visualizacao on-line s o agora possveis pois os dados das a plataformas de simulacao podem viajar at a plataforma de visualizacao com uma taxa de e transfer ncia extremamente alta. Novas plataformas s o frequentemente implantadas e a e a SION continuar a fornecer um estrutura integrada de servicos de forma escal vel. Em a a vez de replicar os servicos de infraestrutura para cada nova implantacao, SION permite o acesso aos servicos existentes reduzindo custos, melhorando a usabilidade e diminuindo o tempo das aquisicoes iniciais necess rias a nova implantacao. a 4.5.1. Especicacoes da SION SION e uma rede Inniband DDR de alta performance que pode oferecer uma largura de banda biseccional de at 889 gigabytes por segundo. O n cleo da infraestrutura de rede e e u baseado em tr s switches Cisco 7024D IB de 288 portas. Um switch fornece um link de e agregacao com os outros componentes do sistema enquanto que os outros dois switches restantes prov a conectividade entre os dois segmentos do Jaguar e o sistema de arquivos e Spider. Um quarto switch 7024D proporciona a conectividade com as outras plataformas e e ligado ao switch de agregacao. O Spider e conectado aos switches do n cleo via 48 u switches Flextronics IB de 24 portas, os quais permitem o enderecamento diretamente do SION. Switches adicionais fornecem conectividade para o restante das plataformas, no total a SION possui mais de 3.000 portas Inniband e mais de 3 milhas da cabos oticos fornecendo uma conectividade de alta performance. 4.5.2. Rede NCCS - Rede Externa A capacidade de rede no NCCS est sendo expandida em paralelo com sua capacidade a de computacao para assegurar transfer ncias de dados em alta velocidade e com precis o. e a As redes com altas taxas de transfer ncia entre estes sistemas e a atualizacao das coe nex es para ESnet (Energy Sciences Network) e Internet2 contribuiram para aumentar a o
velocidade da transfer ncia de dados entre o NCCS e outras instituicoes. Dessa forma e ` permitindo acesso a computacoes de alto desempenho a mais de 200 instituicoes educaci onais, corporacoes e ag ncias governamentais sem ns lucrativos. O n cleo da rede LAN e u do NCCS consiste de dois roteadores Cisco 6500 series junto com um roteador Force10 E1200. O n cleo da rede prov 100 portas 10GE para conex es intra switch e para conecu e o tar diretamente hosts. Tamb m e oferecido 1200 portas Ethernet Gigabit para m quinas e a com necessidades de transfer ncia de dados menores. e 4.6. Sistema de Arquivos(SPIDER) e Sistema de Armazenamento O sistema de arquivos Spider e baseado no sistema de arquivos Lustre e vai substituir os v rios sistemas de arquivos na rede da NCCS com um unico sistema escal vel. O a a Spider fornece um acesso centralizado aos data sets cujo tamanho e da ordem de petabytes, a partir de qualquer plataforma na rede NCCS, eliminando dessa forma as ilhas de dados. Transfer ncia de arquivos entre computadores e outros sistemas ser o dese a necess rias. A transfer ncia de data sets de escala peta entre o Jaguar e o sistema de a e visualizacao, por exemplo, pode levar horas, diminuindo a largura de banda do Jaguar e atrasando as simulacoes em andamento. A eliminacao das transfer ncias de arquivos ir e a melhorar a performance, a conveni ncia e o custo. Plataformas de an lises de dados se e a beneciar o da grande largura de banda do Spider sem exigir um grande investimento a em armazenamento dedicado. O acesso ao Spider por cada plataforma NCCS e congurado com roteadores Lustre. Esses roteadores permitem aos clientes Lustre nos nodos de computacao acessar o Spider como se o armazenamento estivesse presente localmente. Todos os outros componentes Lustre cam dentro da infra-estrutura do Spider fornecendo facilidade de manutencao, acessibilidade durante as falhas de servico nos nodos de computacao e a possibilidade de expandir a performance e a capacidade do sistema de arquivos independentemente dessas plataformas. Usar um sistema de arquivos centralizados requer uma redund ncia aumentada e toler ncia a falhas. O Spider foi projetado para a a eliminar pontos de falha e maximizar a disponibilidade atrav s dos seguintes recursos: e Failover pairs, ou seja, utilizar pares de servidores onde na falta de um deles o outro assume o seu trabalho; Multiple networking paths, v rios caminhos de rede at o servidor s o criados e a e a n o apenas um, caso um dos caminhos de rede tenha problemas, outros poder o a a ser utilizados; Resiliency features do sistema de arquivos Lustre, denido como a capacidade de se adaptar as adversidades e voltar ntegro ap s o acontecimento de um problema. o Diferentemente dos sistemas de armazenamento anteriores, os quais eram simplesmente raids de alta performance, conectadas diretamente a plataforma de computacao, o Spider e um cluster de armazenamento em larga escala. Por tr s disso tem-se 48 DDN S2A9900 a contendo cada um, 280 unidades de disco rgido de 1 terabyte cada, oferecendo uma capa cidade armazenamento formatada/utiliz vel de 10.752 terabytes (acima de 10 petabytes) a ou o equivalente a 1000 c pias do total conte do da biblioteca do congresso dos Estados o u Unidos. Fornecendo uma largura de banda acima de 240 gigabytes por segundo e uma capacidade acima de 10 petabytes o Spider e capaz de suportar as exig ncias de I/O acima e de 180.000 n cleos(cores) de computacao de CPU. Permitindo dessa forma a entrega de u at 1.000 trilh es de c lculos por segundo, ou 1 petaop. Integrando esses sistemas temos e o a a rede I/O escal vel SION, proporcionando uma plataforma de alta performance para o a Spider.
Figura 11. Spider
4.7. DDN S2A9900 High Performance Storage Platforms Atualmente, a DDN (DataDirect Networks, Inc.) prov a infra-estrutura para os ambientes e de computacao de mais alta performance e mais extremos do mundo. Devido a isso, se tornou a escolha da Oak Ridge National Laboratory(ORNL) para constituir o Spider, que e considerado o maior e mais veloz sistema de arquivos do mundo. O S2A9900 foi criado para evitar os gargalos e problemas de esclabilidade inerentes das arquiteturas tradicionais. Constitui-se de 1 datacenter rack com capacidade para at 10 baias, cada e baia pode conter at 60 discos rgidos com capacidade m xima de 1 terabyte cada. Assim, e a possvel oferecer 1.2 petabytes em apenas 2 racks. O rack do S2A9900 e mostrado na e Figura 7.
Figura 12. Rack do S2A9900
As dimens es do rack,na sua especicacao m xima, 2,18 metros de altura x 71,1 o a centmetros de largura x 1,05 metros de profundidade s o apropriadas para uma grande a capacidade de armazenamento em um espaco compacto. Cada baia possui uma ultra den sidade, ou seja, pode armazenar at 60 discos rgidos em um espaco com dimens es de e o 17,8 centmetros de altura x 44,6 centmetros de largura x 91,4 centmetros de profundi dade. Caractersticas como velocidades de leitura e escrita de at 6 gigabytes por segundo, e baixa lat ncia e nenhuma contencao s o proporcionadas por 8 portas paralelas de acesso e a com a tecnologia inniband 4x DDR de adaptadores de rede e uma ligacao atrav s de bra e otica de at 8 gigabytes por segundo. Outra caracterstica desej vel, tal como Qualidade e a
de Servico (Quality of Service), e oferecida atrav s das seguintes estrat gias: e e Sem penalizacoes para as escritas, elas ocorrem t o r pido quanto as leituras; a a Implementacao de RAID 6 com protecao de dupla paridade, sendo a melhor pr tica atual para implantacao de SATA(Serial Advanced Thecnology); a Vericacao da integridade dos dados e feita em tempo real sem perda de perfor mance ou reducao de capacidade. DirectRaid, mant m a performance de tempo real mesmo com a perda de discos e rgidos e canais de comunicacao. Reconstr i at 4 discos rgidos concorrente o e mente e checa condicoes de erro ou falhas. Al m dessas caracterticas, o SA2A9900 apresenta vantagens que o qualicam como um e dos melhores sistemas de armazenamento atuais, tais como: Escalabilidade, conguracao modular, ou seja, os discos e as gavetas podem ser adicionadas online. At 1.200 discos podem ser adicionados; e Otimizacao de espaco, energia e resfriamento, possuindo um dos menores consu mos de energia por gigabyte de espaco e fornecendo um grande espaco de arma zenamento em apenas dois racks. Devido aos atributos mencionados anteriormente o S2A9900 se apresenta como uma escolha correta para o Jagua e o seu sistema de arquivos Spider. 4.8. Lustre File System O Lustre e um sistema de arquivos distribudos baseado em objetos geralmente utilizado para computacao de cluster em larga escala. O nome Lustre e uma combinacao de duas palavras, Linux e cluster. Seu objetivo principal e prov r um sistema de arquivos para e dezenas ou milhares de nodos com capacidade de armazenamento da ordem de petabytes sem comprometer a velocidade ou seguranca. Projetado, desenvolvido e mantido pela Sun Microsystems, Inc., o Lustre foi adquirido em 2007 com a intencao de agregar os seus benefcios ao sistema de arquivos ZFS da Sun e consequentemente ao sistema operacional Solaris. Atualmente 15 dos 30 super computadores mais poderosos do mundo utilizam o Lustre e devido a sua alta escalabilidade a implantacao desse sistema de arquivos e comum em setores de oleo e g s, manufatura, publicidade e nancas. a 4.8.1. Hist rico o A arquitetura do sistema de arquivos Lustre foi desenvolvido com um projeto de pesquisa em 1999 por Peter Braam, que nesta epoca era cientista senior de sistemas na Carnegie Mellon University. Mais tarde Braam fundou sua pr pria empresa chamada Cluster File o Systems, a qual liberou a primeira vers o do Lustre em 2003. A Cluster File Systems foi a adquirida pela Sun Microsystems, Inc. em 2007. 4.8.2. Arquitetura O sistema de arquivos Lustre possui tr s unidades funcionais maiores: e Um unico Metadata Target (MDT) por sistema de arquivos, armazenado em um metadata server, que armazena meta dados tais como:
nomes de arquivos; diret rios; o permiss es; o layout de arquivos;
Um ou mais object storage targets (OSTs) que armazenam os dados do arquivo em um ou mais object storage servers (OSSes). Dependendo do hardware do servidor, um OSS tipicamente serve entre dois e oito targets, onde cada target e um sistema de arquivos em disco local de at 8 terabytes de tamanho. A capacidade de um e sistema de arquivos Lustre e a soma das capacidades fornecidas pelos targets; Clientes que acessam e usam os dados. O Lustre oferece a todos os clientes a sem ntica do POSIX e o acesso concorrente das leituras e escrita aos arquivos no a sistema de arquivos. O MDT, OST e cliente podem estar no mesmo nodo ou em nodos diferentes, mas em instalacoes tpicas, estas funcoes cam em nodos separados com dois a quatro OSTs por nodo OSS se comunicando em uma rede. O Lustre suporta v rios tipos de a rede, incluindo inniband, TCP/IP sobre Ethernet, Myrinet, Quadrics e outras tecnologias propriet rias e pode tirar vantagem das transfer ncias RDMA (remote direct memory a e access), quando disponvel, para aumentar a taxa de transfer ncia e reduzir o uso da CPU. e O armazenamento anexado aos servidores e particionado, opcionalmente organizado com logical volume management (LVM) e/ou RAID, e formatado como m sistema de arquivos. Os servidores Lustre OSS e MDS realizam as leituras, escritas e modicam os dados no formato imposto por esse sistema de arquivos. Um OST e um sistema de arquivos dedicado que exporta uma interface para faixas de bytes de objetos para operacoes de leitura e escrita. Um MDT e um sistema de arquivos dedicado que controla o acesso aos arquivos e diz aos clientes quais objetos formam um arquivo. MDTs e OSTs atualmente usam uma vers o modicada do ext3 para armazenar dados. No futuro, o sistema de a arquivos da Sun Microsystems, Inc. ZFS/DMU ser usada para armazenar dados. a
Figura 13. Arquitetura do Lustre
4.8.3. Implementacao Em uma instalacao tpica do Lustre em um cliente Linux, um m dulo de driver do sistema o de arquivos Lustre e caregado no kernel e o sistema de arquivos e montado como qual es cliente enxergam um unico quer outro sistema de arquivos local ou de rede. Aplicaco sistema de arquivos mesmo que ele seja composto de dezenas ou milhares de servidores individuais e sistemas de arquivos MDT/OST. 4.9. HPSS - Armazenamento de Arquivos O HPSS (High Performance Storage System) e o armazenador de arquivos do NCCS, tem sido signicativamente atualizado para assegurar altas taxas de transfer ncia de dados, are mazenamento e recuperacao con vel de datasets de tamanho da ordem de petabytes, os a quais cont m petabytes de dados. Atualmente o HPSS armazena mais de 3 petabytes de e dados e em m dia 40 terabytes s o adicionados diariamente. A quantidade de armazenae a mento dobra a cada ano e a adicao de dois sistemas de escala peta est o sendo esperados a para suportar essa taxa de crescimento. Para suportar as demandas das plataformas de simulacao de escala peta (petaescalar), o HPSS e expandido todos os anos. Os esforcos de integracao ir o oportunizar ao HPSS a conectividade ao SION, proporcionando novas a funcionalidades como a integracao com o Spider. Esta integracao habilitar transfer ncias a e de entrada e sada de dados diretamente do Spider com extrema performance, usando me canismos de multiplas transfer ncias como o HPSS transfer agent ou o local le mover. e A infraestrutura do HPSS inclui 28 servidores Dell usados como n cleo, CSLS, gateway u de interface de usu rio e Movers (disco/ta). O armazenamento em ta e feito por duas a bibliotecas rob ticas STK PowderHorn contendo 14 drives de ta STK 9840 e mais de o 11.000 tas. As duas bibliotecas rob ticas da Sun, modelo Storage Tek SL8500 contendo o 16 9940, 24 T10000A e 24 T10000B drives de ta com mais de 9800 tas que foram adicionadas para aumentar a capacidade e a taxa de transfer ncia completam a camada e de ta do HPSS. A camada de disco e composta por quatro DDN 9550 com capacidade conjunta de mais de 1500 terabytes de armazenamento e fornecendo um acesso de alta performance para pequenos e m dios arquivos e tamb m atuando como mecanismo de e e cache para grandes arquivos destinados para as tas.
Figura 14. High Performance Storage System
5. Consumo de Energia e Dissipacao de Calor

Com uma alta densidade energ tica de aproximadamente 2000 watts por p quadrado, ou e e seja, 0,0929 metros quadrados, o Jaguar n o poderia ter sido concebido sem um forma a de refrigeracao lquida para prevenir qualquer tipo de super aquecimento. Com 4.400
p s quadrados ou 408,76 metros quadrados, o segmento do XT5 e grande como uma e quadra de basquete. Teria sido muito difcil manter a refrigeracao, mesmo em um ambi ente com a temperatura e a press o do ar controladas, para cada um dos 200 gabinetes, a usando o tradicional resfriamento por ventilacao forcada. O Jaguar resolveu este pro blema atrav s de uma nova tecnologia de resfriamento chamada Cray ECOphlex. Essa e tecnologia de refrigeracao lquida usa um refrigerante chamado R-134a, o mesmo uti lizado em ar-condicionado de autom veis, para remover o calor do ar que entra e sai de o cada gabinete. O resultado disso e uma economia de 900 kilowatts de eletricidade e acima de 500.000 d lares por ano, que seriam necess rios para alimentar os ventiladores em um o a sistema de refrigeracao tradicional de ventilacao forcada. Mais economias s o feitas de a vido as fontes de alimentacao de 480 volts de cada gabinete, pois ao manter a tens o alta, a as perdas el tricas nos cabos de alimentacao s o minimizadas, gerando uma economia em e a torno de 500.000 d lares durante o ciclo de vida do sistema. o
6. Areas de Aplicacao
O Jaguar e utilizado para resolver problemas nas mais diversas areas cientcas, onde pode-se destacar as seguintes: Energia (novas fontes); Biologia (DNA); Meteorologia (variacoes clim ticas); a Ci ncia de Materiais; e Energia Nuclear e Fsica Nuclear; Combust o; a Geoci ncia; e Astrofsica; Qumica;
Esse grande n mero de areas onde o Jaguar atua demonstra a sua import ncia atual u a e a necessidade de que ele continue evoluindo para que possa solucionar estes problemas cada vez mais r pido, ocupando menos espaco e consumindo menos energia. a
Refer ncias e
http://www.cray.com/ http://www.cray.com/About/History.aspx http://www.amd.com/br-pt/Processors/ProductInformation/ 0,,30_118_8796_15223,00.html http://www.ddn.com/s2a http://en.wikipedia.org/wiki/Lustre_(file_system) http://www.hpcwire.com/offthewire/ORNL_Selects_DataDirect_ for_Spider_File_System.html http://www.nccs.gov/

Jaguar

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Jaguar

Uploaded by

Copyright:

Available Formats

Oak Ridge National Laboratorys Cray XT5 Jaguar Supercomputer

Figura 1. Seymour Cray

Figura 2. Cray-1 System

Figura 3. Cray-2 System

Figura 4. Cray-3 System

Figura 5. Cray C90 System

Figura 6. Cray T3E System

Figura 7. Processador AMD Opteron

Figura 8. Arquitetura de Conexao Direta

Figura 9. Cray SeaStar2 System

Figura 10. Job em sistema de batchs

Figura 11. Spider

Figura 12. Rack do S2A9900

nomes de arquivos; diret rios; o permiss es; o layout de arquivos;

Figura 13. Arquitetura do Lustre

Figura 14. High Performance Storage System

5. Consumo de Energia e Dissipacao de Calor

You might also like