[ Datadog ] Host Monitor

Print

모든 Datadog Agent는 datadog.agent.up 으로 상태를 체크할 수 있습니다.

  1. Pick hosts by name or tag

    첫번째 Select Box에서는 모니터할 host를 tag방식으로 선택합니다. (여러 조건 선택시 AND 논리적용) All Monitored Hosts 를 선택할 경우 모든 host 를 대상으로 합니다.
    두번째 Select Box에서는 선택된 첫번째 select Box 의 host중 제외 처리할 host를 tag방식으로 선택합니다. (여러 조건 선택시 OR 논리 적용)

  2. Set alert conditions
    이 섹션에서는 Check Alert 또는 Cluster Alert 중에서 선택합니다 .

    1. Check Alert

      image-20240223-082348.png


      Host가 지정된 시간 동안 보고를 중지하는 경우 알람이 생성됩니다.
      - select group에 선택된 group 별로 알람이 생성되며,
      - 보고중지가 되는 시간을 지정 할 수 있습니다. (default 2분)
      - 알람 발생시 특정 시간 후 자동으로 해제 하는 자동해제 기능도 사용할 수 있습니다.

    2. Cluster Alert

      image-20240223-082524.png

      일정 비율의 Host가 지정된 시간동안 보고를 중지하는 경우 알람이 생성됩니다.
      - 태그에 따라 호스트를 그룹화할지 여부를 결정합니다.
      Ungrouped포함된 모든 호스트의 상태 백분율을 계산합니다.
      Grouped그룹별로 상태 백분율을 계산합니다.
      - Alert 및 Warning 임계값에 대한 백분율을 선택합니다
      - 보고 중지에 대한 기준이 되는 시간을 지정 할 수 있습니다. (default 2분)
      - 알람 발생시 특정 시간 후 자동으로 해제 하는 자동해제 기능도 사용할 수 있습니다.
      - Grouped 를 선택 했을 경우, 새로운 group이 추가 될 때 , 해당 알람이 적용되기 까지의 delay 시간을 지정 할 수 있습니다. (Before evaluating new groups 설정)

  3. Notify your team
    알람을 전파 받을 대상(메일)을 선택하거나, Integration에서 설정된 채널을 목록에서 선택 합니다.

    image-20240223-083015.png
    • Alert Title : 알람 발생시 전파되는 Message의 제목입니다.
      - 예시 : [경고] [{{service.name}}] {{host.name}} 서버의 응답이 없습니다.

    • Alert Message
      - 알람 발생시 전파되는 Message의 내용입니다.
      - 예시

      {{#is_alert}}
      
      발생시간(ST): {{local_time 'last_triggered_at' 'Asia/Seoul'}}
      
      [심각] [{{env.name}}][{{service.name}}]  {{host.name}} ({{host.ip}})  서버의 응답이 없습니다.
      
      {{/is_alert}}
      
      {{#is_alert_recovery}}
      
      발생시간(KST): {{local_time 'last_triggered_at' 'Asia/Seoul'}}
      
      [심각 해제]  [{{env.name}}][{{service.name}}]  {{host.name}} ({{host.ip}})  서버의 응답 없음이 해제 되었습니다. 
      
      {{/is_alert_recovery}}
    • Use Message Template Variables
      Alert title과 Message 본문에 사용 가능한 Template 및 변수 사용법을 확인할 수 있습니다.
      사용가능한 변수 참고 : https://docs.datadoghq.com/monitors/notify/variables/?tab=is_alert

    • Notify your services and your team members 설정
      opsgenie / slack / TEAMS / webhook 등 integration된 채널 및 email 등의 Noti 채널이 표시됩니다.
      알람을 전파할 채널 혹은 대상 email을 설정하시기 바랍니다.

    • Content displayed 설정(Message 구성 내용 설정)
      query / snapshot 등 자동 추가되는 내용을 Message에 포함 할지 여부 설정 합니다.

    • Include Triggering tags in notification title 설정
      알람 발생시 전파되는 Message의 제목에 알람이 발생된 대상에 대한 tag를 표시합니다.

    • Aggregation 설정
      Set alert conditions 에서 선택한 Group 이 있는 경우 자동으로 multi alert으로 선택됩니다.

    • Renotification 설정
      Alert(Warning) 혹은 Nodata가  지속될 경우 선택한 시간마다 재알람을 전파합니다.

    • Tags 설정
      Manage Monitors 에서 조회시, Downtime schedule 설정시 사용가능한
      moniotor를 위한 Tag를 설정합니다.

    • Priority 설정
      P1~P5로 알람의 심각도(중요도) 등을 설정합니다.
      Priority 설정 ( 표준화 진행으로 아래의 기준으로 설정)

이 답변이 유용합니까? 아니오

Send feedback
도움이 되어드리지 못해 죄송합니다. 아티클 개선을 위해 의견을 제공해 주시기 바랍니다.