You are on page 1of 9

Alusio de Barros Leite - aluisio.leite@enbr.com.

br
Sistema de Disaster Recovery do Centro de Operao da Enersul

Alusio de Barros Leite Gustavo Castilho Merighi
Empresa Energtica do Mato Grosso do
Sul - ENERSUL
Empresa Energtica do Mato Grosso do
Sul - ENERSUL
Brasil

RESUMO

O referido artigo expe a arquitetura sistema SCADA do Centro de Operao da Enersul,
com a sua topologia preparada para uma contingncia, alternando o local de operao para
um edifcio distinto, ainda assim interligado ao principal, entretanto com a possibilidade de
operao totalmente independente um do outro, caracterizando assim o Sistema de Disaster
Recovery. O trabalho ainda explica toda a dualidade de software, hardware e da rede de
comunicao, desde o sistema SCADA (Scatex/EFACEC), com o site principal e o backup
at a interligao com as Subestaes e suas unidades terminais remotas, sempre com a
idia de redundncia.





PALAVRAS CHAVE

Centro de Operao do Sistema, Disaster Recovery, Sistema de Superviso e Controle,
SCADA.



2

Introduo
A Enersul uma empresa estratgica para o desenvolvimento e integrao do Estado do
Mato Grosso do Sul e distribui 3.273 GWh com um total de 710 mil clientes. Sua rea de
concesso corresponde a 92% do territrio sul-mato-grossense, ou seja, 328.316km ,
atendendo 73 municpios do total de 78 municpios do estado do MS, abrangendo uma
populao de 2,14 milhes.
A ENERSUL vem desde o incio da dcada de 90 adotando como ferramenta primordial na
operao em tempo real a utilizao de um Sistema de Superviso e Controle (SSC)
permitindo o telecontrole de suas instalaes. A privatizao da empresa no final de 1997
impulsionou os investimentos no intuito de ampliar a atuao do SSC, atualizar hardware e
software, bem como adotar tecnologia mais atual. Novos investimentos tambm
aconteceram na ampliao do parque de UTRs, e substituio das antigas, por melhores e
digitalizadas. Hoje das 90 Subestaes da rea de concesso da Enersul, apenas 1, que
uma Subestao de Compensao em 34,5kV, no telecomandada. Ainda h 2
Subestaes Mveis e mais de 300 Religadores de Distribuio telecomandados.
Em face do atual nvel de dependncia da superviso que a empresa se encontra, onde as
subestaes so quase que integralmente desassistidas, torna-se necessrio uma alta
disponibilidade do sistema para a operao. Frente a isto se desenvolveu o sistema de
Disaster Recovery da Enersul para eliminar ao mximo a falta de operabilidade do Sistema
Eltrico da Enersul.
1. Disaster Recovery
O termo Disaster Recovery significa a recuperao em caso de desastre. Devido a
dependncia das empresas cada vez mais pela tecnologia, esta se tornou fundamental para
o controle, a produo, a manuteno da qualidade de servios e produtos. Assim so
montados grandes Centros de Processamentos de dados. Caso estes venham a ter as suas
atividades interrompidas, por causa de um desastre natural e ou pane de infra-estrutura,
esta interrupo vai provocar grandes perdas financeiras, paralisaes de servios pblicos
essenciais. Apesar do risco, a maioria das empresas no investe neste servio, contudo as
perdas financeiras provenientes de uma paralisao por mais de 24 horas dos servios de
uma empresa que dependem da rea de tecnologia, ser extremamente comprometedor.

2. Arquitetura do Sistema SCADA/Scatex
Sendo o SCATEX um sistema que assenta numa arquitetura modular e escalvel, permite
uma elevada performance e flexibilidade. A modularidade da arquitetura do SCATEX EMS
efetiva, no s ao nvel de hardware como, tambm ao nvel de software. Assim, possvel
definir a atribuio das funes que devem executar em cada mquina.
A arquitetura do sistema baseada em redundncia dos equipamentos essenciais a
superviso, e do prprio site de operao, atingindo um nvel mais amplo de redundncia.
Com isso foi planejado a utilizao de dois sites de operao: o Site Principal e o Site de
Contingncia.
2.1. Site Principal
O site principal est localizado no Centro Operacional da Sede Administrativa da Enersul.
neste local onde se encontra o COS e COD da Enersul e os equipamentos do sistema
SCADA. Alm dos despachantes, toda a rea de Operao dependente do sistema de
superviso e controle, seja para consultar ocorrncias do sistema, fazer anlises grficas e
realizar estudos sobre o sistema eltrico.
3

Os servidores do sistema levam a cabo as principais tarefas de processamento de dados.
Estes atuam como fontes de referncia de informaes para todo o sistema. O sistema
operacional utilizado o HP True64 UNIX, com a base de dados Oracle 9i. Possuem
configurao duplicada do tipo hot-standby. O tempo de comutao entre os servidores de
poucos segundos. O servidor principal quem disponibiliza as janelas de acesso para os
postos de operao do COD e COS.
Alm dos servidores existem os Front-Ends de comunicao, que so um conjunto de
software e hardware responsveis pelas interfaces dos links de comunicao com as UTRs,
atravs de porta RS-232 ou porta Ethernet (protocolo UDP). Os Front-ends de comunicao
tem como base plataformas do tipo PC industrial com sistema operativo Windows XP. Cada
Front-end uma unidade independente e verstil, com capacidade para gerir at 64 canais
distintos, suportando diversos meios de comunicao e mltiplos protocolos. Os protocolos
utilizados pela Enersul so o IEC-60870-5-101 e DNP 3.0. Para garantir um elevado grau de
adaptabilidade s infra-estruturas de comunicao existentes, o sistema permite ainda a sua
instalao remota. So capazes de gerir canais duplicados, para alm de ser possvel definir
configuraes redundantes ao nvel de cada unidade, tambm na filosofia do tipo hot-
standby.
A interface de utilizador, tambm designada por Interface Humana Mquina (IHM), oferecida
pelo sistema, completamente grfica, multi-janelas e amigvel. Esta interface suportada
por postos de operao baseados em Workstations e/ou computadores do tipo PC. Cada
posto suporta a utilizao de mltiplos monitores at um mximo de 3. Numa configurao
base, os postos de operao realizam apenas as funes associadas ao processamento
grfico, residindo toda a informao nos servidores do sistema.


Figura 1: Arquitetura SCADA do Site Principal

Alm dos servidores, postos de operao e front-ends, pode-se ver na figura acima, o
Watchdog do sistema, que complementa as funes de auto-superviso, prprias de cada
elemento do sistema, monitorando seus estados funcionais. O servidor de arquivos
histricos SAH, responsvel pelo armazenamento das ocorrncias e medies do sistema.
E o link da rede externa atravs de Firewall para acesso aos dados armazenados no SAH,
onde a rea de operao pode consultar tudo o que for registrado pelo sistema de
4

superviso. Tais elementos so fundamentais para o funcionamento do sistema SCADA,
porm neste artigo tem o seu contedo dispensvel a um maior aprofundamento.
Atravs da Figura 1, observar-se que os equipamentos essenciais ao sistema possuem
conexo com duas redes LAN dos switches em paralelo, para que haja a duplicidade em
sua topologia. Ambas as redes possuem categoria 6 e velocidade de 1Gbps.

2.2. Site de Contingncia
Um plano de contingncia tem a finalidade de descrever as aes e medidas a serem
tomadas por uma empresa para que seus processos vitais no sejam interrompidos por
eventuais desastres que possam vir a ocorrer. Os incidentes mais comuns so enchentes,
incndios, rebelies, greves, energia, vrus, atentados terroristas, acidentes e erros
humanos. Em caso de uma contingncia deve-se reestabelecer o pleno funcionamento das
atividades, ou um estado mnimo aceitvel a continuidade dos servios, o mais rpido
possvel.
Para isto a Enersul criou o seu site de contingncia, que foi instalado em uma subestao
localizada a dezesseis quilmetros do site principal, interligados atravs de fibra ptica
redundante, atualizado constantemente e automaticamente, e com a mesma estrutura do
site principal, a fim de assumir todas as suas atividades em caso de uma contingncia,
recuperando a operacionalidade do sistema eltrico.
A arquitetura do site de contingncia praticamente a mesma do site principal, conforme a
figura abaixo. Contm dois servidores com o mesmo sistema hot-standby. Os Front-ends de
comunicao esto configurados como standby dos alocados no site principal. Esto
disponveis quatro postos de operao, sendo 2 para o COS e os outros 2 para o COD.

Figura 2: Arquitetura SCADA do Site de Contingncia

Quando da necessidade de transferir a operao para o site de contingncia, preciso
realizar algumas configuraes manuais nos servidores, para que eles possam assumir o
trabalho primordial a superviso. Isto deve ser alterado, devido ao fato de no dia a dia o site
de contingncia trabalhar como sendo um posto distribudo, ou seja, um posto de operao
avanado que possui base de dados e telas atualizados em tempo real, e permite o
lanamento de novas janelas de operao a outros postos com processamento local. Este
5

servio manual pode ser realizado em pouco tempo o que no prejudica o restabelecimento
do sistema SCADA.

2.3. Unidade Terminal Remota
A unidade terminal remota (UTR) responsvel por realizar funes de aquisio de dados
e controle remoto, concentrando as informaes oriundas de rels de proteo, sensores de
campo, CLPs, etc. com a UTR que o sistema SCADA troca informaes e executa
comandos atravs dos protocolos de comunicao.
O restabelecimento do link entre os front-ends e as UTRs, acontece atravs da rede
Ethernet com encapsulamento em UDP. Como a Enersul possui diferentes fornecedores de
UTRs, h casos em que o equipamento no possui conexo Ethernet e para isso,
utilizado um conversor serial (RS-232) para Ethernet (RJ-45).
Rel Rel s de s de
Prote Prote o o
UTR UTR
Front Front- -End End
Rede de
comunicao
Serial Serial
Conversor Conversor
Ethernet Ethernet Ethernet Ethernet

Figura 3: Arquitetura UTR
O conversor serial/ethernet configurado para responder a dois front-ends, o principal e o
standby localizado no site de contingncia. Com esta filosofia podemos tornar redundante
tambm a rede de comunicao (item 3), e desta maneira aumentar ao mximo a
disponibilidade do sistema de superviso e controle.

















6

3. Arquitetura da rede de comunicao
Inicialmente, a rede de dados foi concebida para fornecer alta disponibilidade e redundncia
entre o site principal (Bloco 12 no Centro Operacional) e o site de contingncia
(Subestao), conforme diagrama abaixo:

Figura 4: Interligao dos sites
A comunicao entre o site principal e o de contingncia feita atravs de fibra ptica com a
velocidade de 1 Gbps, conectada diretamente aos switches. Se essa conexo principal
falhar o protocolo Spanning Tree far a convergncia para o link de 2 Mbps via SDH. Essa
comunicao redundante possui dois caminhos alternativos, um atravs de fibra ptica e
outro atravs de rdio.
Com a viabilidade do encapsulamento do protocolo IEC/DNP no pacote UDP do TCP/IP, foi
possvel disponibilizar a conectividade entre os equipamentos com sada serial e ethernet
em todas as subestaes, de acordo com o exemplo abaixo:
A comunicao entre o site principal e o de contingncia feita atravs de fibra ptica com a
velocidade de 1 Gbps, conectada diretamente aos switches. Se essa conexo principal
falhar o protocolo Spanning Tree far a convergncia para o link de 2 Mbps via SDH. Essa
comunicao redundante possui dois caminhos alternativos, um atravs de fibra ptica e
outro atravs de rdio.
Com a viabilidade do encapsulamento do protocolo IEC/DNP no pacote UDP/IP, foi possvel
disponibilizar a conectividade entre os equipamentos com sada serial e ethernet em todas
as subestaes, de acordo com o exemplo abaixo:

Figura 5: Encapsulamento em UDP

7

A segunda etapa do projeto contemplou a implementao da redundncia (alta
disponibilidade) entre os sites principal/contingncia com as regies sul e norte, como
mostra o diagrama exposto:


Figura 6: Rotas de Comunicao

Os roteadores dos sites principal e de contingncia respondem por um nico endereo IP
(lgico) atravs do protocolo HSRP. Na falha de um, o outro assume imediatamente, pois
esto na mesma sub-rede dos computadores.
A conexo desses sites com os das regies sul e norte so feitas atravs de rdio e fibra,
sempre com caminhos alternados para fornecer alta disponibilidade com redundncia. Os
canais da rede WAN so de 2 Mbps, utilizando o protocolo PPP.
Quando um site ficar inacessvel o protocolo de roteamento altera a direo do trfego das
informaes automaticamente sem haver a necessidade de interveno humana. O prximo
passo ser em disponibilizar redundncia entre as regies sul e norte com as subestaes
remanescentes/locais.




8

4. Contingnciamento
O sistema de superviso e controle est disponvel 24 horas por dia, 365 dias por ano,
portanto no se pode programar paradas, nem deixar que as eventuais aconteam. Isto
significa que no deve haver falhas, que seja de software ou hardware. Ento o sistema
redundante em toda a sua topologia, e est apto a suportar contingncias em vrios nveis
do seu processo.

4.1 Falha do servidor principal;
Em caso de falha no servidor principal, o servidor em standby assume suas funes em uma
comutao automtica, onde as janelas de logins do servidor principal nos postos de
operao so fechadas e as novas janelas so abertas. Tambm as comunicaes com as
UTRs so reinicializadas, devido ao redirecionamento para o novo servidor mestre. Assim
que o watchdog detecta a falha do servidor, a comutao instantnea.

4.2 Falha no Front-End de comunicao;
Na falha do Front-End principal, o reserva tambm tomar frente da comunicao com as
UTRs. O watchdog tambm realiza esta comutao automaticamente, onde para o
operador ser interrompido a superviso apenas das UTRs configuradas naquele Front-
End, e ainda assim em um tempo no superior a 30 segundos. Vale lembrar que na
arquitetura, os Front-Ends reservas esto alocados no Site de Contingncia que est
interligado com o principal.

4.3 Falha de uma das redes LAN;
Como visto na arquitetura de ambos os sites, os equipamentos essncias do sistema de
superviso esto conectados por duas placas LANs em dois switches diferentes. Portanto
no caso de defeito em um dos switches, todo o trfego de dados alternado para o segundo
switch. Esta ao automtica e imperceptvel aos operadores.

4.4 Falha no roteamento da comunicao com as UTRs;
Segundo o item 3, pode-se observar que as rotas com as UTRs so redundantes, com isso
o sistema de superviso pode alternar a comunicao com as mesmas de acordo com a
topologia da rede de comunicao, devido a seus roteadores e seus switches. possvel
interrogar as remotas tanto pelos Front-Ends do Site Principal quanto de Contingncia,
alternando entre as rotas da Regio Norte e da Regio Sul, conforme visto na figura 6. O
tempo de comutao das rotas no superior a 30 segundos.

4.5 Falha total do site principal.
Finalizando o ltimo estgio de contingenciamento, este leva em considerao uma avaria
gravssima no Site Principal, onde o restabelecimento seja demorado ou at impossvel.
Para este caso toda a operao deslocada para o Site de Contingncia, onde j foi visto
anteriormente que o mesmo possui a mesma estrutura que torna possvel a sua operao
independentemente do Site Principal, porm mantendo as suas caractersticas operacionais.
Neste procedimento necessria a interveno manual para habilitar o Site de Contingncia
como Principal. Este tempo estimado em 10 minutos.
9


5. Concluso
Neste informe dispusemos de toda a arquitetura do sistema de superviso e controle da
Enersul, e das maneiras de sobrepor s falhas que possam ocorrer e assim atrapalhar o
processo de operao das subestaes. Portanto com essa caracterstica do sistema, torna-
se o processo de superviso das subestaes da rea de concesso da Enersul, com um
alto nvel de disponibilidade para a rea de operao, trazendo um mximo de tempo
possvel sem haver interrupo e uma grande confiabilidade na operao do sistema
eltrico.



BIBLIOGRAFIA
[1] Ricardo Lobo, "Disaster Recovery Sua Segurana em caso de Desastre", 2009.
[2] EFACEC Sistemas de Eletrnica, S.A. , "SCATEX EMS Descrio Tcnica", 2006,
pp. 7-9.
[3] Wikipdia , "Plano de Contingncia", 2009.

You might also like