Gestion des événements - Processus ITIL®

Articles reliés

Gestion des événements - Module Octopus

 

Introduction

La gestion des événements est un processus ITIL® qui fait partie de la phase Exploitation des services :

 

 

Par définition, un événement est un changement d'état significatif dans la gestion d'un élément de configuration (CI) ou d'un service TI. Les événements sont typiquement reconnus à travers des alertes ou des notifications détectées par un outil de surveillance.

Ces détections de changement d'états significatifs, le sens qu'on leur donne et les mesures de contrôle appropriées qui sont effectuées sont les activités principales qui font partie du processus de Gestion des événements.

La Gestion des événements est donc la base pour le suivi et le contrôle des opérations.

Avantages

  1. Fournit des mécanismes pour une détection précoce des incidents. Dans plusieurs cas, il est possible qu'un événement soit détecté et assigné (parfois même sous la forme d'un incident) au groupe approprié avant qu'une interruption de service survienne.
  2. L'automatisation de la détection prend en considération les alertes ou les notifications significatives, réduisant ainsi les coûts de surveillance et les interruptions de service.
  3. Le signalement d'un événement à un groupe qui intervient rapidement améliore le pourcentage de disponibilité et lui permet de suivre la capacité des systèmes

Principes et concepts de base

Types d'événement

Il existe 3 types d'événement :

Information

​Type d'événement qui ne demande aucune action. Typiquement utilisé pour confirmer le statut d'un équipement ou d'un service, pour le succès d'une transaction ou d'une activité, ou pour générer des statistiques d'analyse. Exemples :

  • Une tâche en traitement différé a été exécutée avec succès (batch job).
  • Journalisation transactionnelle ou rapports automatisés.
Avertissement

Type d'événement signalant l'approche d'un seuil. Informe que la situation doit être vérifiée et que les actions appropriées doivent être posées pour éviter une exception (panne). Exemples :

  • L'espace disque d'un serveur est à 65 % et augmente; s'il atteint 75 %, le temps réponse devient inacceptable.
  • Le temps d'exécution d'une transaction est plus long de 10 %.
  • Le taux de transmission de données par paquet a augmenté de 15 % la dernière heure.

L'avertissement signifie une activité inhabituelle. Il est une indication que la situation requiert une surveillance accrue. Dans certains cas, elle pourrait se résoudre d'elle-même, comme dans le cas d'une augmentation inhabituelle de charge de travail qui, une fois complétée, la situation retourne à un état normal. 

Exception

Type d'événement signalant qu'un équipement fonctionne de façon anormale qui provoque ou risque de provoquer un impact négatif sur les activités d'affaires. Exemples :

  • Un serveur est en panne.
  • Plus de 150 utilisateurs se sont authentifiés en même temps sur une application.
  • Un segment du réseau ne répond pas à des requêtes de routine.

 

Chaque organisation doit définir les règles qui régissent chaque type d'événement, de manière à ce que les mécanismes automatiques mis en place dans les systèmes de surveillance soient gérés adéquatement. Gardons en tête que les événements de type Information transmettent des données à utiliser dans la prise de décision, les événements de type Avertissement fournissent des informations sur les exceptions qui pourraient survenir et le niveau d'intervention à appliquer et les événements de type Exception indiquent une situation anormale pour laquelle une action doit être posée.

Chacun des types repose sur l'envoi et la réception de messages, que l'on désigne comme notifications d'événement et qui se produisent selon les règles définies.

Diagramme de processus

 

Activités

Occurrence Parmi tous les événements qui surviennent, il convient de déterminer lequel devrait être détecté.

Notification Émise par un CI ou un outil de surveillance. Il existe deux types :

  • Outils actifs, qui interrogent les CI sur leur état et leur disponibilité.
  • Outils passifs, qui détectent les alertes et communications des CI et qui font des corrélations pour identifier les exceptions.

Détection : Une fois la notification reçue, elle est interprétée par le système de surveillance ou par un autre outil de gestion (tel Octopus).

Enregistrement : Création de la requête de type Événement dans l'outil de gestion.

1er niveau de corrélation & de filtre : Selon les règles établies dans le moteur de corrélation, l'événement est communiqué au système de gestion des requêtes ou il est ignoré (filtrage), et est identifié comme étant un événement de type :

  • Information : aucune action.
  • Avertissement : un équipement atteint un seuil qui nécessite une vérification et potentiellement une action automatique ou manuelle afin de prévenir une exception (panne).
  • Exception : un service ou un équipement fonctionne anormalement; les affaires sont alors impactées. L'exception sera transmise comme un incident, un problème ou un changement.

2e niveau de corrélation : Si l'événement est de type Avertissement, une décision doit être prise à propos de son importance et des actions à prendre. La corrélation est assurée par un moteur de corrélation (qui fait habituellement partie d'un outil de gestion) et compare l'événement avec un ensemble de critères dans un ordre prescrit. On appelle ces critères règles d'affaires. L'idée est de concevoir un système qui identifie les événements ayant un impact sur les affaires et d'utiliser les règles pour en déterminer le niveau et le type d'impact.

Par exemple :

  • Nombre d'événements similaires.
  • Nombre de CI générant des événements similaires.
  • Action spécifique associé à un code ou une donnée.
  • Comparaison des données d'utilisation selon un maximum ou un minimum.
  • Autre

Si aucune action n'est requise, l'événement sera journalisé pour référence future.

Notification / Intervention humaine : Si l'événement de type Avertissement requiert une intervention, une notification est émise au groupe responsable de l'élément de configuration.

Réponse automatique : Au même titre qu'un événement de type Exception, les règles de corrélations du système de gestion des requêtes pourraient créer automatiquement un incident, un problème ou un changement, et la requête générée sera gérée via les processus correspondants.

Fermeture : Fermeture de l'événement de type Information ou Avertissement. L'événement de type Exception le sera à travers la gestion des incidents, des problèmes ou des changements.

 

Structure et règles

Une organisation doit définir et concevoir exactement ce qui, dans l'infrastructure informatique et les services TI, doit être surveillé et comment cela doit être contrôlé. Cette structure doit considérer l'ensemble des décisions qui doivent être prises et les mécanismes à mettre en place pour exécuter ces décisions.

  • Comment les événements seront-ils générés?
  • Comment seront-ils classifiés?
  • Comment seront-ils communiqués?
  • Quelles seront les données qui seront transmises dans la requête?
  • Où seront enregistrés les événements?
  • Quel niveau d'automatisation appliquer?

 

X
Aidez-nous à améliorer l’article








Aidez-nous à améliorer l’article