03. 어떤 정보를 모니터링 해야 할까?

전체 구간별 모니터링 대상

Kafka의 핵심인 broker를 중심으로 데이터를 생산하는 Producer, 소비하는 Consumer로 구성

  • Producer

    • 초당 요청 건수/사이즈

    • 초당 전송 사이즈

    • I/O 사용률

  • Broker

    • Active Controller 개수

    • 초당 유입/유출 건수 및 사이즈

    • 평균 처리 시간

    • Topic 상태(ISR)

    • Log Flush 비율

    • 비정상 복제본 개수

  • Consumer

    • 초당 읽어온 건수/사이즈

    • 가장 높은 Offset Lag

    • 초당 Commit한 건수

    • Conumser Group 정보

  • CPU, Memory, Disk 자원 사용률

Apache Kafka 운영에 영향이 높은 지표를 선정하여 모니터링 필요

  • 처리 성능

    • 입출력 처리량

      • Broker로 송수신하는 초당 요청 건수와 전송 사이즈

      • Disk 쓰기 성능

    • Lag 상태

      • 처리되지 못한 메시지 개수

  • 서비스 안정성

    • Controller 상태

      • Active Controller 개수

      • Leader Election 실행 비율 (Broker 종료 시 발생)

    • Topic 관리

      • 비정상 Partition 개수

      • 디스크에 쓰지 못하는 Log 디렉토리 개수 (하드웨어 장애 등)

  • 클러스터 확장성

    • 자원 사용률

      • Network, CPU 등의 자원 사용률

    • Controller 성능

      • Active Controller의 요청 건수 / 요청 대기시간

    • 처리 성능

      • Queue에 대기 중인 요청 건수

Last updated