NOC - Netowork Operation Center - PowerPoint PPT Presentation

About This Presentation
Title:

NOC - Netowork Operation Center

Description:

Title: NOC - Netowork Operation Center Author: ff Last modified by: Liane Tarouco Created Date: 9/4/1997 11:27:46 PM Document presentation format – PowerPoint PPT presentation

Number of Views:120
Avg rating:3.0/5.0
Slides: 50
Provided by: ff16
Category:

less

Transcript and Presenter's Notes

Title: NOC - Netowork Operation Center


1
NOC - Netowork Operation Center
  • Definição
  • "Network Operational Control"(NOC) consiste
    em uma coleção de atividades requeridas para
    manter dinamicamente o nível de serviço em uma
    rede ou conjunto de redes. Estas atividades
    asseguram alta disponibilidade de recursos pelo
    rápido reconhecimento de problemas e
    degradação de performance, disparando funções de
    controle quando for necessário

2
Atuação
  • Para verificar se o nível de serviço atual
    corresponde ao desejado, informações são
    extraidas da rede para obter a funcionalidade e
    performance em tempo real.
  • As informações são extraidas continuamente ou sob
    demanda e armazenadas no banco de dados da
    gerencia da rede.

3
Atuação
  • Partes destes dados são submetidos à análise e
    outros dados são utilizados para comparar o
    status real da rede com aquele desejado
    (planejado), permitindo verificar se alguma
    anomalia está ocorrendo.

4
Atuação
  • Deve-se preparar uma série de atividades para
    resolução de problemas, desde uma simples
    substituição de um dispositivo defeituoso até a
    execução de ferramentas mais sofisticadas para um
    diagnóstico mais acurado do problema.

5
O Sistema de acompanhamento de problemas
  • A utilização de um "Sistema de Registro de
    problemas"("Trouble Ticket System") auxilia
    o NOC no diagnóstico do problema e permite criar
    um Banco de Dados(BD) de experiências com
    problemas, viabilizando a utilização de sistemas
    especialistas na solução dos problemas.
  • Os TTS também agilizam o processo de controle da
    rede porque permitem uma comunicação direta
    com os responsáveis pelo NOC

6
"TROUBLE TICKETING SYSTEMS(TTS)"
  • Funções e características de um TTS
  • Fazendo uma analogia com um "quadro hospitalar",
    o "Registro de Problema" deve prover um histórico
    completo do problema de forma que qualquer
    operador possa tomar alguma iniciativa sem que
    para isso tenha de consultar outro operador

7
"TROUBLE TICKETING SYSTEMS(TTS)"
  • Deve permitir um melhor escalonamento de
    problemas atribuindo prioridades aos mesmos. Os
    supervisores e operadores poderão tomar decisões
    acerca da necessidade ou não de mais pessoal pela
    carga corrente do "Centro de Operações de Rede".
  • Seria interessante permitir que a prioridade dos
    registros mudassem de acordo com a hora do dia ou
    em resposta a alarmes de tempo

8
"TROUBLE TICKETING SYSTEMS(TTS)"
  • Se o TTS for suficientemente integrado ao sistema
    de mail então alguns registros podem ser
    despachados diretamente ao responsável
  • Deve-se atribuir um "timeout" para cada registro
    de problema. Caso o problema não seja resolvido
    em tempo, automaticamente é acionado um alarme. A
    fim de se evitar "postergação indefinida",
    pode-se adotar um escalonamento baseado no tempo
    de espera, no tipo de rede e na severidade do
    problema
  • Caso a empresa opere em mais de um Centro de
    Operações de Rede, deve-se canalisar os registros
    ao grupo de engenheiros, operadores ou
    representantes de clientes responsáveis por
    aquela rede de onde provem o registro de
    problema

9
"TROUBLE TICKETING SYSTEMS(TTS)"
  • Fornece mecanismos para a obtenção de
    estatisticas tais como "Tempo médio entre falhas"
    e "Tempo médio de conserto". Uma coleta e análise
    apropriada de tais estatisticas permite que
    se tome medidas preventivas a eventuais falhas em
    dispositivos do sistema

10
Potenciais Usuários de um TTS
  • Os potenciais usuários de um TTS dependerão de
    quão sofisticado será o sistema de registro de
    problemas.
  • Se este sistema tiver um mecanismo de ajuda
    orientado por um sistema especialista, boa parte
    do registro pode ser feita quase que
    automaticamente, dessa forma qualquer usuário(ou
    seja, incluindo o usuário final) poderá usufruir
    do sistema.
  • Deve-se ressaltar também que mecanismos de
    segurança são fundamentais (prover logs e
    passwords) para um bom e correto funcionamento de
    um TTS.
  • Caso o TTS nao seja tão amigável, este poderá ser
    utilizado somente pelo pessoal que detenha
    conhecimento mais aprofundado do
    sistema(administradores).
  • É importante que o TTS esteja disponível ao
    usuário final porque diminui a burocracia na
    solução de qualquer problema.

11
Informações constantes em um TTS
  • Hora e data do início do problema
  • Operador que está abrindo o registro
  • Severidade do problema
  • Uma linha descrevendo o problema(para uso em
    relatórios)
  • Máquina envolvida
  • Rede envolvida
  • Endereço da máquina envolvida
  • Endereço da máquina destino
  • Próxima ação
  • Hora e data pra alarme
  • Para quem este registro deveria ser enviado
  • Responsável pelo registro

12
Após a resolução do problema
  • Hora e Data da resolução
  • Duração
  • Descrição sumária do que aconteceu
  • Componente chave afetado
  • Inspecionado por
  • Escalado para
  • Um "check mark" para eventuais investigações
    estatísticas

13
Responsabilidades do NOC
  • Monitoramento e Coleta de Dados
  • Projeto dos Displays de status de rede
  • Determinando o Alcance do Controle
  • Determinação de Problemas
  • Testes sob Produção
  • Roteamento Dinâmico e Alternativo
  • "Network Recovery"
  • Distribuição de Informação
  • Ativando ou Desativando a Rede e/ou seus
    componentes
  • Interfaces com outro pessoal do Suporte à Rede
  • Avaliação das Ferramentas no Controle Operacional
    da Rede

14
Monitoramento e Coleta de Dados
  • Para assegurar a manutenção do perfil do serviço
  • Avaliado por
  • Tempo de Resposta
  • Disponibilidade
  • Exatidão.

15
Monitoramento e Coleta de Dados
  • Coleta contínua x Coleta sob-demanda.
  • A fim de atuar ao invés de somente reagir, é
    necessário realizar medidas continuamente

16
Monitoramento e Coleta de Dados
  • A ocorrência da primeira informação sobre alguma
    falha deve receber a maior atenção por duas
    razões
  • Uma falha em um componente de rede pode não
    prejudicar a operação até durante muito tempo
    após a ocorrência da falha. Quando o impacto for
    visível, dados sobre a falha podem não estar mais
    disponíveis
  • A operação não pode ser interrompida para
    "dumps"ou para esperar para que a falha
    ocorra novamente.

17
Monitoramento e Coleta de Dados
  • A coleta de dados sob-demanda pode ser útil na
    investigação de problemas especiais de
    performance de rede ou para diagnosticar
    problemas funcionais como parte da atividade de
    controle operacional
  • Entretanto, ela não é adequada para supervisionar
    a rede nem para propósito de planejamento.

18
Monitoramento e Coleta de Dados
  • Em um ambiente de comunicação, as seguintes
    fontes de informações podem ser utilizadas
  • Características padrões do software de
    comunicação
  • Ferramentas especiais executadas sob o software
    de comunicação
  • Monitores de rede
  • Monitores de aplicação
  • Logs de problemas e alertas de várias interfaces.

19
Controle Centralizado
  • Vantagens
  • Visão global
  • Pessoal do NOC localizado em um só local
  • Reação ótima a todas as redes
  • Arquivos de registro de problemas e experiências
    mantidos centralizados
  • Operador livre de sistemas remotos
  • Base para automação
  • Determinação mais rápida de problemas
  • Coordenação de mudanças
  • Implementação de padrões
  • Relatórios e estatísticas através de dados
    correlatos dependentes.

20
(No Transcript)
21
Controle Centralizado
  • Desvantagens
  • Muitos dados para serem filtrados
  • Overhead no processamento
  • Overhead na transmissão de dados
  • Necessidade de um canal secundário

22
Controle Remoto
  • Vantagens
  • Somente dados seletivos
  • Reação mais rápida na área local
  • Desvantagens
  • Overhead no "download"
  • Educação e contratação de pessoal especializado
    para os locais remotos
  • Instalação de múltiplas ferramentas
  • Somente otimização local
  • Problemas de sincronização.

23
Determinação de problemas
  • Por problema se compreende um incidente ou evento
    que causa um mal funcionamento do sistema.
  • Os objetivos principais são minimizar os efeitos
    dos problemas e reduzir o tempo até a restauração
    do estado normal.
  • A determinação de problema compreende quatro
    passos
  • Detecção do problema
  • Determinação do problema
  • Diagnóstico do problema
  • Resolução do problema.

24
Determinação de problemas Níveis de complexidade
de problemas
  • Primeiro nível
  • Aqueles problemas simples que são resolvíveis
    facilmente através de uma simples consulta à base
    de dados do "Trouble Ticketing System"com o
    auxílio de alguma ferramenta não tão sofisticada.
  • Aproximadamente 85 dos problemas podem ser
    resolvidos desta forma
  • O diagnóstico destes problemas é simples

25
Determinação de problemas Níveis de complexidade
de problemas
  • Segundo nível
  • Somente tratáveis por operadores da rede.
  • Aproximadamente 10 dos problemas são deste
    nível. O diagnóstico é considerável.

26
Determinação de problemas Níveis de complexidade
de problemas
  • Terceiro nível
  • Tratáveis por especialistas em comunicação
    (software e hardware). Estes problemas são
    geralmente de natureza crítica e complexa e podem
    requerer envolvimento de especialistas da empresa
    fornecedora do software e/ou hardware envolvidos.
  • O diagnóstico requer recursos humanos
    consideráveis e instrumentação apropriada.

27
Determinação de problemas
  • A detecção do problema ocorre
  • Quando os limiares são excedidos, mensagens são
    geradas e enviadas ao console de rede apropriado
    alertando o operador acerca do problema,
    geralmente com uma identificação do tipo e
    localização do problema
  • Através de mensagens enviadas por clientes

28
Determinação de problemas
  • A determinação do problema significa poder
    responder exatamente a seguinte questão
  • "O que está errado e onde está o problema na
    rede? "
  • A determinação do problema pode ser facilitada
    significativamente através da exibição de
    informações tais como se o problema é funcional,
    de serviço, de processamento, "link", etc.

29
Diagnóstico do Problema
  • Para diagnosticar o problema, utiliza-se
    informações tais como
  • "arquivos de experiências anteriores"
  • arquivos com recomendações do fornecedor do
    produto (hardware / software)"
  • "arquivos de inventário", etc.
  • Para o diagnóstico do problema se recomenda a
    utilização de um sistema especialista, tendo como
    base de dados os arquivos citados acima e outros
    dados fornecidos pelo operador.

30
Resolução do Problema
  • A parte final da determinação do problema é a
    delegação da resolução do problema para a
    manutenção técnica(incluindo serviços dos
    fornecedores) ou para a análise da performance da
    rede.

31
Testes sob Produção
  • Visam verificar dinamicamente a operação correta
    da rede
  • Os testes poderiam incluir componentes
    individuais, tais como "nós" e "links".
  • Os testes podem ser executados durante a operação
    normal mas eles não podem interferir na produção
    de forma alguma

32
Tipos de testes
  • Intrusivo Circuito normal e/ou a operação do
    equipamento são interrompidos
  • Não-intrusivo Testes podem ser realizados sem
    interromper os serviços de rede.
  • Usualmente, os testes são executados em canais
    secundários.

33
Automação dos testes
  • Muitos dos testes que são implementados em
    "hardware"e "software" são executados
    automaticamente, sem nenhuma atenção do operador.
  • Quando uma situação específica ocorre, o controle
    é passado para uma rotina de teste.
  • O único meio para controlar a execução é através
    da definição do "software".

34
Network recovery
  • "Network Recovery" se torna muito caro a menos
    que procedimentos estejam definidos para
    restauração rápida da rede após o reparo dos
    componentes danificados. Após serem executados
    todos os reparos, testes são executados para
    verificar funcionamento normal.
  • Se os testes são satisfatórios, os componentes
    reparados e/ou "links" podem ser ligados.

35
Network recovery
  • O controle operacional da rede é freqüentemente
    tentado a ignorar responsabilidades a mais em
    termos destes fatores
  • Fechamento dos registros de problemas fornecendo
    comentários sobre as causas do problema
  • Atualização do Arquivo de Experiência
  • Atualização do Arquivo do Fornecedor do produto
    atingido pelo problema

36
Network recovery
  • Atualização do Arquivo de controle de inventário
    através da inserção de informações adicionais
    sobre o componente em consideração

37
Network recovery
  • Informar os clientes da rede acerca da
    restauração da rede.

38
Network recovery
  • É importante em favor do gerenciamento da rede
    assegurar que os operadores da rede sejam
    propriamente educados, motivados e não
    sobrecarregados de tal forma que suas únicas
    preocupações sejam o sintoma e sua resolução ao
    invés da causa e sua resolução.

39
Distribuição de Informação
  • Como parte da responsabilidade da determinação do
    problema, o NOC deve manter o cliente informado
    sobre condições excepcionais da rede.
  • Uma vez que partes da rede estão fora de ordem, o
    NOC poderia procurar pela alternativa ótima para
    mensagens de "broadcast".
  • Também é necessário comunicar informações sobre
    alterações planejadas.
  • Isto pode ser incorporado em mensagens periódicas

40
Ativando ou Desativando a Rede e/ou seus
componentes
  • Quando for necessário fazer alguma manutenção na
    rede que exija sua desativação temporária,
    deve-se realizar uma série de atividades que
    permitam que a desativação, reconfiguração e a
    ativação ocorram de forma correta.

41
Ativação
  • Setar dados dinâmicos em estado de inicialização
  • Setar todas as tabelas de "links" em estado de
    inicialização
  • Comparar tabela com áreas adjacentes
  • Verificar todas a linhas
  • Ativar todas as linhas
  • Verificar todas as estações da área
  • Verificar os componentes de software
  • Ativar partes do software para estado "idle".

42
Desativação
  • Desativar todas as linhas "livres" desocupadas
  • Desativar o software de comunicação
  • Esperar pelas linhas ocupadas
  • Desativar os componentes de software.

43
Reconfiguração
  • Verificar/ativar todas linhas
  • Verificar todas as estações do domínio
  • Reconfigurar as tabelas de "links"
  • Ativar os "links" de acordo com as tabelas de
    "links"
  • Setar dados dinâmicos em estado de inicialização
  • Ativar os componentes de software.

44
Interfaces com outro pessoal do Suporte à Rede
  • Devido a falta de tempo e treinamento, o NOC
    freqüentemente tem de delegar problemas para
    outros grupos.
  • Três grupos estão envolvidos
  • Manutenção técnica
  • Análise de performance e "tuning"
  • Administração da Rede

45
Análise de performance e "tuning"
  • Localização de gargalos
  • Investigações especiais
  • Geração de software
  • Realização de avaliações estatísticas com
    propósitos especiais
  • Prover relatórios
  • Preparação de procedimentos operacionais
    fáceis-de-serem-utilizados
  • Planejar "upgrades" de software e/ou hardware

46
Administração da Rede
  • Manutenção de arquivos
  • Avaliação dos níveis de serviço
  • Prover novos padrões
  • Avaliação dos "registros de problemas" e prover a
    forma para a entrada de "registros de problemas"
  • Negociação dos níveis de serviço com os clientes
  • Assegurar que o NOC tem as facilidades,
    treinamento e pessoal capacitado para atingir
    seus propósitos
  • Relatar aos vendedores sobre as observações dos
    operadores sobre a falta de simpatia dos
    clientes.

47
Avaliação das Ferramentas no Controle Operacional
da Rede
  • A motivação do pessoal que trabalha do NOC é um
    importante fator para que este atinja seus
    objetivos.
  • Não é necessário delegar a responsabilidade para
    a seleção do instrumento correto para o controle
    operacional, mas o pessoal deveria estar
    envolvido nas seguintes áreas
  • Definição de crítérios
  • Pesar os critérios
  • Avaliação dos critérios para um número
    gerenciável de alternativas
  • Realização e avaliação do processo de instalação
  • Ordenação das alternativas em termos de
    tecnologia.

48
Avaliação das Ferramentas no Controle Operacional
da Rede
  • Esta política de envolvimento e educação é
    crítica não somente para avaliação de
    ferrramentas mas também na introdução de todo
    novo upgrade de software e/ou hardware da rede.

49
Considerações acerca da Implementação
  • O primeiro passo consiste em realizar um
    "checklist" sobre a situação atual.
  • A lista seguinte fornece algumas recomendações
    para a elaboração do "checklist"
  • Lista de inventário de componentes
  • nodos e "links"(velocidade,protocolos,etc)
  • Disponibilidade de informação "on-line" a nível
    de serviço
  • Metodologia de determinação de problema
  • Disponibilidade de catálogos de "what-if"
  • (de apoio a tomada de decisões
  • do tipo o que fazer se isto ocorrer)
Write a Comment
User Comments (0)
About PowerShow.com