NOC - Netowork Operation Center - PowerPoint PPT Presentation

About This Presentation

Title:

NOC - Netowork Operation Center

Description:

Title: NOC - Netowork Operation Center Author: ff Last modified by: Liane Tarouco Created Date: 9/4/1997 11:27:46 PM Document presentation format – PowerPoint PPT presentation

Number of Views:120

Avg rating:3.0/5.0

Slides: 50

Provided by: ff16

Category:

more less

Transcript and Presenter's Notes

Title: NOC - Netowork Operation Center

1
NOC - Netowork Operation Center

Definição
"Network Operational Control"(NOC) consiste
em uma coleção de atividades requeridas para
manter dinamicamente o nível de serviço em uma
rede ou conjunto de redes. Estas atividades
asseguram alta disponibilidade de recursos pelo
rápido reconhecimento de problemas e
degradação de performance, disparando funções de
controle quando for necessário

2
Atuação

Para verificar se o nível de serviço atual
corresponde ao desejado, informações são
extraidas da rede para obter a funcionalidade e
performance em tempo real.
As informações são extraidas continuamente ou sob
demanda e armazenadas no banco de dados da
gerencia da rede.

3
Atuação

Partes destes dados são submetidos à análise e
outros dados são utilizados para comparar o
status real da rede com aquele desejado
(planejado), permitindo verificar se alguma
anomalia está ocorrendo.

4
Atuação

Deve-se preparar uma série de atividades para
resolução de problemas, desde uma simples
substituição de um dispositivo defeituoso até a
execução de ferramentas mais sofisticadas para um
diagnóstico mais acurado do problema.

5
O Sistema de acompanhamento de problemas

A utilização de um "Sistema de Registro de
problemas"("Trouble Ticket System") auxilia
o NOC no diagnóstico do problema e permite criar
um Banco de Dados(BD) de experiências com
problemas, viabilizando a utilização de sistemas
especialistas na solução dos problemas.
Os TTS também agilizam o processo de controle da
rede porque permitem uma comunicação direta
com os responsáveis pelo NOC

6
"TROUBLE TICKETING SYSTEMS(TTS)"

Funções e características de um TTS
Fazendo uma analogia com um "quadro hospitalar",
o "Registro de Problema" deve prover um histórico
completo do problema de forma que qualquer
operador possa tomar alguma iniciativa sem que
para isso tenha de consultar outro operador

7
"TROUBLE TICKETING SYSTEMS(TTS)"

Deve permitir um melhor escalonamento de
problemas atribuindo prioridades aos mesmos. Os
supervisores e operadores poderão tomar decisões
acerca da necessidade ou não de mais pessoal pela
carga corrente do "Centro de Operações de Rede".
Seria interessante permitir que a prioridade dos
registros mudassem de acordo com a hora do dia ou
em resposta a alarmes de tempo

8
"TROUBLE TICKETING SYSTEMS(TTS)"

Se o TTS for suficientemente integrado ao sistema
de mail então alguns registros podem ser
despachados diretamente ao responsável
Deve-se atribuir um "timeout" para cada registro
de problema. Caso o problema não seja resolvido
em tempo, automaticamente é acionado um alarme. A
fim de se evitar "postergação indefinida",
pode-se adotar um escalonamento baseado no tempo
de espera, no tipo de rede e na severidade do
problema
Caso a empresa opere em mais de um Centro de
Operações de Rede, deve-se canalisar os registros
ao grupo de engenheiros, operadores ou
representantes de clientes responsáveis por
aquela rede de onde provem o registro de
problema

9
"TROUBLE TICKETING SYSTEMS(TTS)"

Fornece mecanismos para a obtenção de
estatisticas tais como "Tempo médio entre falhas"
e "Tempo médio de conserto". Uma coleta e análise
apropriada de tais estatisticas permite que
se tome medidas preventivas a eventuais falhas em
dispositivos do sistema

10
Potenciais Usuários de um TTS

Os potenciais usuários de um TTS dependerão de
quão sofisticado será o sistema de registro de
problemas.
Se este sistema tiver um mecanismo de ajuda
orientado por um sistema especialista, boa parte
do registro pode ser feita quase que
automaticamente, dessa forma qualquer usuário(ou
seja, incluindo o usuário final) poderá usufruir
do sistema.
Deve-se ressaltar também que mecanismos de
segurança são fundamentais (prover logs e
passwords) para um bom e correto funcionamento de
um TTS.
Caso o TTS nao seja tão amigável, este poderá ser
utilizado somente pelo pessoal que detenha
conhecimento mais aprofundado do
sistema(administradores).
É importante que o TTS esteja disponível ao
usuário final porque diminui a burocracia na
solução de qualquer problema.

11
Informações constantes em um TTS

Hora e data do início do problema
Operador que está abrindo o registro
Severidade do problema
Uma linha descrevendo o problema(para uso em
relatórios)
Máquina envolvida
Rede envolvida
Endereço da máquina envolvida
Endereço da máquina destino
Próxima ação
Hora e data pra alarme
Para quem este registro deveria ser enviado
Responsável pelo registro

12
Após a resolução do problema

Hora e Data da resolução
Duração
Descrição sumária do que aconteceu
Componente chave afetado
Inspecionado por
Escalado para
Um "check mark" para eventuais investigações
estatísticas

13
Responsabilidades do NOC

Monitoramento e Coleta de Dados
Projeto dos Displays de status de rede
Determinando o Alcance do Controle
Determinação de Problemas
Testes sob Produção
Roteamento Dinâmico e Alternativo
"Network Recovery"
Distribuição de Informação
Ativando ou Desativando a Rede e/ou seus
componentes
Interfaces com outro pessoal do Suporte à Rede
Avaliação das Ferramentas no Controle Operacional
da Rede

14
Monitoramento e Coleta de Dados

Para assegurar a manutenção do perfil do serviço
Avaliado por
Tempo de Resposta
Disponibilidade
Exatidão.

15
Monitoramento e Coleta de Dados

Coleta contínua x Coleta sob-demanda.
A fim de atuar ao invés de somente reagir, é
necessário realizar medidas continuamente

16
Monitoramento e Coleta de Dados

A ocorrência da primeira informação sobre alguma
falha deve receber a maior atenção por duas
razões
Uma falha em um componente de rede pode não
prejudicar a operação até durante muito tempo
após a ocorrência da falha. Quando o impacto for
visível, dados sobre a falha podem não estar mais
disponíveis
A operação não pode ser interrompida para
"dumps"ou para esperar para que a falha
ocorra novamente.

17
Monitoramento e Coleta de Dados

A coleta de dados sob-demanda pode ser útil na
investigação de problemas especiais de
performance de rede ou para diagnosticar
problemas funcionais como parte da atividade de
controle operacional
Entretanto, ela não é adequada para supervisionar
a rede nem para propósito de planejamento.

18
Monitoramento e Coleta de Dados

Em um ambiente de comunicação, as seguintes
fontes de informações podem ser utilizadas
Características padrões do software de
comunicação
Ferramentas especiais executadas sob o software
de comunicação
Monitores de rede
Monitores de aplicação
Logs de problemas e alertas de várias interfaces.

19
Controle Centralizado

Vantagens
Visão global
Pessoal do NOC localizado em um só local
Reação ótima a todas as redes
Arquivos de registro de problemas e experiências
mantidos centralizados
Operador livre de sistemas remotos
Base para automação
Determinação mais rápida de problemas
Coordenação de mudanças
Implementação de padrões
Relatórios e estatísticas através de dados
correlatos dependentes.

20
(No Transcript)
21
Controle Centralizado

Desvantagens
Muitos dados para serem filtrados
Overhead no processamento
Overhead na transmissão de dados
Necessidade de um canal secundário

22
Controle Remoto

Vantagens
Somente dados seletivos
Reação mais rápida na área local
Desvantagens
Overhead no "download"
Educação e contratação de pessoal especializado
para os locais remotos
Instalação de múltiplas ferramentas
Somente otimização local
Problemas de sincronização.

23
Determinação de problemas

Por problema se compreende um incidente ou evento
que causa um mal funcionamento do sistema.
Os objetivos principais são minimizar os efeitos
dos problemas e reduzir o tempo até a restauração
do estado normal.
A determinação de problema compreende quatro
passos
Detecção do problema
Determinação do problema
Diagnóstico do problema
Resolução do problema.

24
Determinação de problemas Níveis de complexidade
de problemas

Primeiro nível
Aqueles problemas simples que são resolvíveis
facilmente através de uma simples consulta à base
de dados do "Trouble Ticketing System"com o
auxílio de alguma ferramenta não tão sofisticada.
Aproximadamente 85 dos problemas podem ser
resolvidos desta forma
O diagnóstico destes problemas é simples

25
Determinação de problemas Níveis de complexidade
de problemas

Segundo nível
Somente tratáveis por operadores da rede.
Aproximadamente 10 dos problemas são deste
nível. O diagnóstico é considerável.

26
Determinação de problemas Níveis de complexidade
de problemas

Terceiro nível
Tratáveis por especialistas em comunicação
(software e hardware). Estes problemas são
geralmente de natureza crítica e complexa e podem
requerer envolvimento de especialistas da empresa
fornecedora do software e/ou hardware envolvidos.
O diagnóstico requer recursos humanos
consideráveis e instrumentação apropriada.

27
Determinação de problemas

A detecção do problema ocorre
Quando os limiares são excedidos, mensagens são
geradas e enviadas ao console de rede apropriado
alertando o operador acerca do problema,
geralmente com uma identificação do tipo e
localização do problema
Através de mensagens enviadas por clientes

28
Determinação de problemas

A determinação do problema significa poder
responder exatamente a seguinte questão
"O que está errado e onde está o problema na
rede? "
A determinação do problema pode ser facilitada
significativamente através da exibição de
informações tais como se o problema é funcional,
de serviço, de processamento, "link", etc.

29
Diagnóstico do Problema

Para diagnosticar o problema, utiliza-se
informações tais como
"arquivos de experiências anteriores"
arquivos com recomendações do fornecedor do
produto (hardware / software)"
"arquivos de inventário", etc.
Para o diagnóstico do problema se recomenda a
utilização de um sistema especialista, tendo como
base de dados os arquivos citados acima e outros
dados fornecidos pelo operador.

30
Resolução do Problema

A parte final da determinação do problema é a
delegação da resolução do problema para a
manutenção técnica(incluindo serviços dos
fornecedores) ou para a análise da performance da
rede.

31
Testes sob Produção

Visam verificar dinamicamente a operação correta
da rede
Os testes poderiam incluir componentes
individuais, tais como "nós" e "links".
Os testes podem ser executados durante a operação
normal mas eles não podem interferir na produção
de forma alguma

32
Tipos de testes

Intrusivo Circuito normal e/ou a operação do
equipamento são interrompidos
Não-intrusivo Testes podem ser realizados sem
interromper os serviços de rede.
Usualmente, os testes são executados em canais
secundários.

33
Automação dos testes

Muitos dos testes que são implementados em
"hardware"e "software" são executados
automaticamente, sem nenhuma atenção do operador.
Quando uma situação específica ocorre, o controle
é passado para uma rotina de teste.
O único meio para controlar a execução é através
da definição do "software".

34
Network recovery

"Network Recovery" se torna muito caro a menos
que procedimentos estejam definidos para
restauração rápida da rede após o reparo dos
componentes danificados. Após serem executados
todos os reparos, testes são executados para
verificar funcionamento normal.
Se os testes são satisfatórios, os componentes
reparados e/ou "links" podem ser ligados.

35
Network recovery

O controle operacional da rede é freqüentemente
tentado a ignorar responsabilidades a mais em
termos destes fatores
Fechamento dos registros de problemas fornecendo
comentários sobre as causas do problema
Atualização do Arquivo de Experiência
Atualização do Arquivo do Fornecedor do produto
atingido pelo problema

36
Network recovery

Atualização do Arquivo de controle de inventário
através da inserção de informações adicionais
sobre o componente em consideração

37
Network recovery

Informar os clientes da rede acerca da
restauração da rede.

38
Network recovery

É importante em favor do gerenciamento da rede
assegurar que os operadores da rede sejam
propriamente educados, motivados e não
sobrecarregados de tal forma que suas únicas
preocupações sejam o sintoma e sua resolução ao
invés da causa e sua resolução.

39
Distribuição de Informação

Como parte da responsabilidade da determinação do
problema, o NOC deve manter o cliente informado
sobre condições excepcionais da rede.
Uma vez que partes da rede estão fora de ordem, o
NOC poderia procurar pela alternativa ótima para
mensagens de "broadcast".
Também é necessário comunicar informações sobre
alterações planejadas.
Isto pode ser incorporado em mensagens periódicas

40
Ativando ou Desativando a Rede e/ou seus
componentes

Quando for necessário fazer alguma manutenção na
rede que exija sua desativação temporária,
deve-se realizar uma série de atividades que
permitam que a desativação, reconfiguração e a
ativação ocorram de forma correta.

41
Ativação

Setar dados dinâmicos em estado de inicialização
Setar todas as tabelas de "links" em estado de
inicialização
Comparar tabela com áreas adjacentes
Verificar todas a linhas
Ativar todas as linhas
Verificar todas as estações da área
Verificar os componentes de software
Ativar partes do software para estado "idle".

42
Desativação

Desativar todas as linhas "livres" desocupadas
Desativar o software de comunicação
Esperar pelas linhas ocupadas
Desativar os componentes de software.

43
Reconfiguração

Verificar/ativar todas linhas
Verificar todas as estações do domínio
Reconfigurar as tabelas de "links"
Ativar os "links" de acordo com as tabelas de
"links"
Setar dados dinâmicos em estado de inicialização
Ativar os componentes de software.

44
Interfaces com outro pessoal do Suporte à Rede

Devido a falta de tempo e treinamento, o NOC
freqüentemente tem de delegar problemas para
outros grupos.
Três grupos estão envolvidos
Manutenção técnica
Análise de performance e "tuning"
Administração da Rede

45
Análise de performance e "tuning"

Localização de gargalos
Investigações especiais
Geração de software
Realização de avaliações estatísticas com
propósitos especiais
Prover relatórios
Preparação de procedimentos operacionais
fáceis-de-serem-utilizados
Planejar "upgrades" de software e/ou hardware

46
Administração da Rede

Manutenção de arquivos
Avaliação dos níveis de serviço
Prover novos padrões
Avaliação dos "registros de problemas" e prover a
forma para a entrada de "registros de problemas"
Negociação dos níveis de serviço com os clientes
Assegurar que o NOC tem as facilidades,
treinamento e pessoal capacitado para atingir
seus propósitos
Relatar aos vendedores sobre as observações dos
operadores sobre a falta de simpatia dos
clientes.

47
Avaliação das Ferramentas no Controle Operacional
da Rede

A motivação do pessoal que trabalha do NOC é um
importante fator para que este atinja seus
objetivos.
Não é necessário delegar a responsabilidade para
a seleção do instrumento correto para o controle
operacional, mas o pessoal deveria estar
envolvido nas seguintes áreas
Definição de crítérios
Pesar os critérios
Avaliação dos critérios para um número
gerenciável de alternativas
Realização e avaliação do processo de instalação
Ordenação das alternativas em termos de
tecnologia.

48
Avaliação das Ferramentas no Controle Operacional
da Rede

Esta política de envolvimento e educação é
crítica não somente para avaliação de
ferrramentas mas também na introdução de todo
novo upgrade de software e/ou hardware da rede.

49
Considerações acerca da Implementação