[ Datadog ] Log Monitor

Print

Log 수집이 활성화 되면 지정된 로그 유형이 지정된 기간 동안 사용자 정의 임계값을 초과할 때 경고하는 Log Monitor를 생성할 수 있습니다.

  1. Define the search query

    1. 로그 탐색기 검색 과 동일한 논리를 사용하여 검색 쿼리를 구성합니다 . 검색쿼리로 조회된 Log에 대해서만 알람이 지정 됩니다.

    2. 로그 Count, Facet 또는 Measure를 모니터링하도록 선택합니다 .

      • Count : * 을 선택시 검색 쿼리에 해당하는 log의 line count로 모니터링 합니다.
        Group by 할 tag및 facet을 선택하면 각각의 tag/facet에 대해 알람이 발생합니다.

      • Facet(Count Unique) : Facet 을 선택하면 facet 갯수에 대해 경고합니다 .
        Group by 할 tag및 facet을 선택하면 각각의 tag/facet에 대해 알람이 발생합니다.
        (예시 : source group by host : host별로 source의 갯수가 모니터링됩니다. )

      • Measure : measure항목이 선택되면 모니터는 Log Facet(메트릭 모니터와 유사)의 숫자 값에 대해 경고하고 집계및 집계할 그룹 tag/facet으로 선택해야 합니다( min, avg, sum, median, pc75, pc90, pc95, pc98, pc99,max).

      • 집계 그룹은 총 4개까지 선택가능합니다.

    3. 알림 그룹화 전략 구성(선택 사항):

      • Simple Alert : 단순 경고는 모든 보고 소스에 대해 집계됩니다. 집계된 값이 설정 조건을 충족하면 하나의 경고를 받습니다. 이는 단일 호스트의 메트릭 또는 여러 호스트의 메트릭 합계를 모니터링하는 데 가장 적합합니다. 이 전략은 알림 소음을 줄이기 위해 선택할 수 있습니다.

      • Multi Alert : 다중 경고는 그룹 매개변수에 따라 각 소스에 경고를 적용합니다. 설정된 조건을 충족하는 각 그룹에 대해 경고 이벤트가 생성됩니다. 예를 들어, 공간이 부족한 각 장치에 대해 별도의 경고를 수신하도록 그룹화 할 수 있습니다.

  2. Set alert conditions
    알람 발생할 조건을 설정합니다.

    • 측정항목의 임계값이 선택한 시간동안 above, above or equal to, below, below or equal to 일 때 알람이 발생합니다.

    • 측정항목의 Alert, Warning 임계치를 설정합니다. (둘 중 하나만 설정가능)

    • 임계치 비교 계산에 대한 Delay를 설정할 수 있습니다.

    • 새로운 그룹이 추가되었을때 알람적용에 대한 wait 시간을 설정할 수 있습니다.

  3. Notify your team
    알람을 전파 받을 대상(메일)을 선택하거나, Integration에서 설정된 채널을 목록에서 선택 합니다.
    알람 전파시 받을 메세지를 설정합니다.

    image-20240223-084838.png

    • Alert Title : 알람 발생시 전파되는 Message의 제목입니다.
      - 예시 : [경고] {{host.name}} 의 {{log.source}} 에서 Exception 메세지가 발생했습니다.

    • Alert Message
      - 알람 발생시 전파되는 Message의 내용입니다.
      - 예시

      {{#is_alert}}
      
      발생시간(KST): {{local_time 'last_triggered_at' 'Asia/Seoul'}}
      
      ## [경고] {{host.name}} 의 {{log.source}} 에서  Exception 메세지가 발생했습니다. 
      확인 하시기 바랍니다. 
      
      Message :
      {{log.message}} 
      
      {{/is_alert}}
    • Use Message Template Variables
      Alert title과 Message 본문에 사용 가능한 Template 및 변수 사용법을 확인할 수 있습니다.
      사용가능한 변수 참고 : https://docs.datadoghq.com/monitors/notify/variables/?tab=is_alert

    • Notify your services and your team members 설정
      opsgenie / slack / TEAMS / webhook 등 integration된 채널 및 email 등의 Noti 채널이 표시됩니다.
      알람을 전파할 채널 혹은 대상 email을 설정하시기 바랍니다.

    • Content displayed 설정(Message 구성 내용 설정)
      query / snapshot 등 자동 추가되는 내용을 Message에 포함 할지 여부 설정 합니다.

    • Include Triggering tags in notification title 설정
      알람 발생시 전파되는 Message의 제목에 알람이 발생된 대상에 대한 tag를 표시합니다.

    • Include a table of the top 10 breaching values
      발생한 알람에 해당하는 log를 최대 10개까지 알람 Message에 포함합니다.

    • Aggregation 설정
      Select Monitor scope 에서 선택한 Group 이 있는 경우 자동으로 multi alert으로 선택됩니다.

    • Renotification 설정
      Alert(Warning) 혹은 Nodata가  지속될 경우 선택한 시간마다 재알람을 전파합니다.

    • Tags 설정
      Manage Monitors 에서 조회시, Downtime schedule 설정시 사용가능한
      moniotor를 위한 Tag를 설정합니다.

    • Priority 설정
      P1~P5로 알람의 심각도(중요도) 등을 설정합니다.
      Priority 설정 ( 표준화 진행으로 아래의 기준으로 설정)


  4. Define permissions and audit notifications
    해당 Monitor에 대한 수정 권한 및 수정 noti에 대한 설정을 합니다.

이 답변이 유용합니까? 아니오

Send feedback
도움이 되어드리지 못해 죄송합니다. 아티클 개선을 위해 의견을 제공해 주시기 바랍니다.