현재 상황을 파악하고, 이상 상태를 감지하여 적시에 대응
장애 및 오류 지표 별 기준 정의 ex. active controller = 1
해당 지표 수집 및 시각화 ex. active controller num 지표 수집
기준과 차이 발생 시 경고 및 조치 ex. 해당 수치가 0 인 경우, 원인 파악 및 대응
지표 별 기대 성능 정의 ex. 10만 건 / sec - partition 2개 기준
테스트 실행 및 해당 지표 수집 ex. messagesPerSec 등 지표수집
기대 성능과 비교하여, 성능 최적화 설정 ex. 성능 개선을 위한 설정 변경(압축, batch size, 등)
처리 성능
얼마나 많이 처리하는가?
얼마나 빨리 처리하는가?
서비스 가용성
데이터 복제는 잘 되는가?
Broker 장애는 없는가?
클러스터 확장성
CPU/Mem 성능이 충분한가?
특정 Client가 자원을 독점하는가?
Producer, Broker, Consumer 전 구간에서 확인
Last updated 3 years ago