AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현-일체 포함-php.cn

저자: Cao Zhen Weiyuan

Meituan 데이터베이스 플랫폼 R&D 팀은 데이터베이스 이상 징후를 탐지해야 하는 필요성이 점점 더 커지고 있습니다. 더 빠르고 지능적으로 손실을 발견, 찾아내고 중지하기 위해 우리는 AI 기반 데이터베이스 이상 탐지 서비스를 개발했습니다. 알고리즘.

1. 배경

데이터베이스는 Meituan의 핵심 비즈니스 시나리오에서 널리 사용되며 높은 안정성 요구 사항과 매우 낮은 예외 허용 오차를 갖습니다. 따라서 신속한 데이터베이스 이상 징후 발견, 위치 파악 및 손실 중단이 점점 더 중요해지고 있습니다. 비정상적인 모니터링 문제에 대응하여 기존의 고정 임계값 경보 방법은 규칙을 구성하는 데 전문가의 경험이 필요합니다. 다양한 비즈니스 시나리오에 따라 임계값을 유연하고 동적으로 조정할 수 없으며 작은 문제가 심각한 오류로 발전하기 쉽습니다.

AI 기반 데이터베이스 이상 발견 기능은 데이터베이스의 과거 성능을 기반으로 핵심 지표에 대한 7*24시간 검사를 수행할 수 있으며, 이상 징후의 초기 위험을 감지하고 이상 징후를 조기에 노출하며 R&D 인력을 지원할 수 있습니다. . 문제가 악화되기 전에 손실을 찾아 중지하세요. 위의 요소를 고려하여 Meituan 데이터베이스 플랫폼 R&D 팀은 데이터베이스 이상 탐지 서비스 시스템을 개발하기로 결정했습니다. 다음으로, 이 기사에서는 기능 분석, 알고리즘 선택, 모델 훈련 및 실시간 감지와 같은 여러 차원에서 우리의 생각과 관행 중 일부를 자세히 설명합니다.

2. 특징 분석

2.1 데이터의 변화 패턴 파악

구체적인 개발 및 코딩을 진행하기에 앞서 기존 이력 모니터링을 통해 시계열 데이터의 변화 패턴을 찾아내는 것이 매우 중요한 작업입니다. 따라서 데이터 분포의 특성에 따라 적절한 알고리즘을 선택할 수 있습니다. 다음은 과거 데이터에서 선택한 몇 가지 대표적인 지표 분포 차트입니다. AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현

그림 1 데이터베이스 지표 형태

위 그림에서 데이터 패턴은 주로 기간, 드리프트 및 정체기의 세 가지 상태를 나타냄을 알 수 있습니다. ^[1]. 따라서 대부분의 시나리오를 다룰 수 있는 초기 단계에서 이러한 공통 특성을 가진 샘플을 모델링할 수 있습니다. 다음으로 주기성, 드리프트, 정상성이라는 세 가지 관점에서 분석하고 알고리즘 설계 과정에 대해 논의한다.

2.1.1 주기적 변경

많은 비즈니스 시나리오에서 지표는 아침 및 저녁 피크 또는 일부 예정된 작업으로 인해 정기적으로 변동됩니다. 우리는 이것이 데이터의 본질적인 규칙적인 변동이라고 믿으며, 모델은 주기적인 구성 요소를 식별하고 상황에 따른 이상 현상을 감지하는 능력을 가져야 합니다. 장기 추세 구성요소가 없는 시계열 지표의 경우 지표에 순환 구성요소 AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현 가 있는 경우, 여기서 T는 시계열의 기간 범위를 나타냅니다. 자기상관 다이어그램, 즉 t가 서로 다른 값을 가질 때 의 값을 계산할 수 있으며, 자기상관 피크의 간격을 분석하여 주기성을 결정할 수 있습니다. 주요 프로세스는 다음과 같습니다.

추세 구성요소를 추출하여 잔차 시퀀스를 분리합니다. 이동평균법을 이용하여 장기 추세항을 추출하고 원래 수열과 차분을 만들어 잔차 수열을 구합니다. (여기서 주기분석은 추세와 관련이 없습니다. 추세성분을 분리하지 않은 경우 , 자기 상관이 크게 영향을 받아 기간을 식별하기 어려워집니다 ).
잔차의 롤링 자기상관(Rolling Correlation) 시퀀스를 계산합니다. 자기상관 시퀀스는 잔차 시퀀스를 순환적으로 이동시킨 후 잔차 시퀀스와 벡터 점 곱셈 연산을 수행하여 계산됩니다(주기적 자기상관은 지연된 붕괴를 피할 수 있음).
주기 T는 자기 상관 시퀀스의 피크 좌표를 기반으로 결정됩니다. 자기상관 시퀀스의 일련의 지역 최고 피크를 추출하고 가로좌표의 간격을 주기로 취합니다. (주기점에 해당하는 자기상관 값이 주어진 임계값보다 작으면 유의미한 주기성이 없는 것으로 간주됩니다) .

구체적인 과정은 다음과 같습니다.

AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현

그림 2 사이클 추출 프로세스의 도식

2.1.2 드리프트 변경

시퀀스를 모델링하려면 일반적으로 뚜렷한 장기 추세나 글로벌 드리프트가 없어야 합니다. 그렇지 않으면 생성된 모델이 지표의 최근 추세에 잘 적응하지 못하는 경우가 많습니다 ^[2]. 우리는 시계열의 평균값이 시간이 지남에 따라 크게 변하거나 글로벌 돌연변이 지점이 있는 상황을 통칭하여 드리프트 시나리오라고 합니다. 시계열의 최신 추세를 정확하게 포착하기 위해서는 모델링 초기 단계에서 과거 데이터에 드리프트가 있는지 확인해야 합니다. 다음 예에 표시된 것처럼 글로벌 드리프트 및 주기적 계열은 드리프트를 의미합니다.

AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현

그림 3 데이터 드리프트

데이터베이스 지표는 비즈니스 활동과 같은 복잡한 요인의 영향을 받으며 많은 데이터는 비주기적입니다. 그리고 모델링은 이러한 변화를 견뎌야 합니다. 따라서 기존 변경 지점 감지 문제와 달리 이상 감지 시나리오에서는 데이터가 기록에서 안정적이었다가 표류하는 상황만 감지하면 됩니다. 알고리즘 성능과 실제 성능을 바탕으로 중앙값 필터링을 기반으로 한 드리프트 감지 방법을 사용했습니다.

1 중앙값 평활화

a. 시계열의 추세 구성 요소를 얻기 위해 창 내의 중앙값을 추출합니다.

b. 주기적인 요인의 영향을 피하고 필터 지연 보정을 수행하려면 창의 크기가 충분히 커야 합니다.

c. 평균 평활화 대신 중앙값을 사용하는 이유는 비정상적인 표본의 영향을 피하기 위해서입니다.

2 평활화 시퀀스가 증가하는지 감소하는지 확인

a. 중앙값 평활화 후 시퀀스 데이터의 경우 각 점이 이전 점보다 크면(작음) 시퀀스는 다음과 같습니다. 증가(감소) 순서입니다.

b. 시퀀스가 엄격하게 증가하거나 엄격하게 감소하는 경우 지표는 분명히 장기적인 추세를 가지며 조기에 종료될 수 있습니다.

3. 매끄러운 시퀀스를 탐색하고 다음 두 가지 규칙을 사용하여 드리프트가 있는지 확인합니다.

a. 현재 샘플 포인트 오른쪽에 있는 시퀀스의 최소값이면 서든 드리프트(Uptrend)가 있습니다.

b. 현재 샘플 지점 왼쪽에 있는 시퀀스의 최소값이 현재 샘플 지점 오른쪽에 있는 시퀀스의 최대값보다 큰 경우 급격한 하락 드리프트가 있습니다(downtrend). .

2.1.3 고정적 변화

시계열 지표의 경우 관측 시간의 변화에 따라 그 속성이 어느 순간에도 변하지 않으면 이 시계열은 고정되어 있다고 믿습니다. 따라서 장기 추세 구성요소나 순환 구성요소가 있는 시계열의 경우 모두 고정적이지 않습니다. 구체적인 예는 아래 그림과 같습니다.

AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현

그림 4 데이터 정상성 표시

이 경우 단위근 테스트로 판단할 수 있습니다(Augmented Dickey-Fuller Test)^[3] 주어진 시계열이 고정되어 있는지 여부. 특히 특정 시간 범위 지표의 과거 데이터에 대해 다음 조건이 동시에 충족되면 시계열이 안정적이라고 믿습니다.

최근 1일간의 시계열 데이터에 대해 adfuller 테스트를 통해 얻은 p-값이 0.05 미만입니다.
지난 7일간의 시계열 데이터에 대해 adfuller 테스트를 통해 얻은 p-값이 0.05보다 작습니다.

3. 알고리즘 선택

3.1 분포 법칙 및 알고리즘 선택

시계열 데이터 이상 탐지에 대해 업계 유명 회사에서 발표한 제품 소개를 당사의 역사적 축적 경험과 결합하여 이해함으로써 선 분석 실제 지표의 샘플링 분석을 기반으로 확률 밀도 함수는 다음 분포를 따릅니다.

AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현

그림 5 분포 왜도

위 분포를 목표로 몇 가지 일반적인 알고리즘을 조사하고 Box를 결정했습니다. 최종 이상 탐지 알고리즘으로는 플롯, 절대 중앙값 차이 및 극단값 이론이 사용되었습니다. 다음은 일반적인 시계열 데이터 탐지를 위한 알고리즘 비교표입니다.

AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현

3Sigma를 선택하지 않은 주된 이유는 이상에 대한 허용치가 낮고 이론적으로 절대 중앙값 차이가 더 나은 이상을 나타내기 때문입니다. 공차, 즉 데이터가 매우 대칭적인 분포를 나타내는 경우 감지를 위해 3Sigma 대신 절대 중앙값 차이(MAD)가 사용됩니다. 우리는 다양한 데이터의 분포를 위해 다양한 탐지 알고리즘을 사용합니다. (다양한 알고리즘의 원리는 기사 마지막에 있는 부록을 참조하세요. 여기서는 너무 자세히 설명하지 않겠습니다):

낮은 왜도 및 고대칭 분포 : 중앙값 절대차(MAD)
약간 치우친 분포 : 상자 그림(Boxplot)
고기치 분포 : 극값 이론(EVT )

위의 분석을 통해 샘플을 기반으로 모델을 출력하는 구체적인 프로세스를 얻을 수 있습니다.

AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현

그림 6 알고리즘 모델링 프로세스

알고리즘의 전반적인 모델링 프로세스는 다음과 같습니다. 위 그림에서는 주로 타이밍 드리프트 감지, 타이밍 안정성 분석, 타이밍 주기성 분석 및 왜도 계산을 다루고 있습니다. 다음은 별도로 소개합니다.

타이밍 드리프트 감지. 드리프트가 존재하는 장면이 검출되면 검출을 통해 얻은 드리프트 지점 t에 따라 입력 시계열을 절단해야 하며, 드리프트 지점 이후의 시계열 샘플은 후속 모델링 과정의 입력으로 사용되어 다음과 같이 기록됩니다. S={Si}, 여기서 i>t.
시계열 정상성 분석. 입력 시계열 S가 정상성 테스트를 만족하면 상자 그림(default) 또는 절대 중앙값 차이를 통해 직접 모델링할 수 있습니다.
시계열 주기성 분석. 주기성의 경우 기간 범위를 T로 기록하고, 입력 시계열 S를 범위 T에 따라 잘라내어 각 시간 인덱스 j∈{0,1, ⋯,T−1} . 주기성이 없는 경우 모든 입력 시계열 S에 대해 데이터 버킷으로 모델링 프로세스가 수행됩니다.

사례 : 시계열 ts={t₀,t₁,⋯,t_n}이 주어지고, 시간 인덱스에 대해 주기성이 있고 기간 범위가 T라고 가정합니다. j j∈{0,1,⋯,T−1}인 경우, 이를 모델링하는 데 필요한 샘플 포인트는 간격 [t_j−kT−m, t_j−kT+m]으로 구성됩니다. , 여기서 m은 창 크기를 나타내는 매개변수이고, k는 j−kT−m≥0, j−kT+m≤n을 만족하는 정수입니다. 예를 들어, 주어진 시계열이 2022/03/01 00:00:00부터 2022/03/08 00:00:00까지 시작한다고 가정하면, 주어진 창 크기는 5이고, 기간은 1일입니다. 시간 인덱스 30 즉, 모델링에 필요한 샘플 포인트는 다음 기간에서 나옵니다. [03/01 00:25:00, 03/01 00:35:00]
[03/02 00:25 :00, 03/02 00:35:00]
...
[03/07 00:25:00, 03/07 00:35:00]

왜곡 계산. 시계열 지표를 확률 분포도로 변환하고 분포의 왜도를 계산합니다. 왜도의 절대값이 임계값을 초과하면 극단값 이론을 사용하여 출력 임계값을 모델링합니다. 왜도의 절대값이 임계값보다 작은 경우 임계값은 상자 그림 또는 절대 중앙값 차이로 모델링되고 출력됩니다.

3.2 Case Sample Modeling

위 과정을 보다 명확하게 이해하기 쉽도록 데이터 분석 및 모델링 과정을 보여주기 위해 사례를 선택했습니다. 그림 (a)는 원본 시퀀스, 그림 (b)는 날짜 범위에 따라 접힌 시퀀스, 그림 (c)는 그림 (b)의 특정 시간 인덱스 간격에서 샘플의 증폭된 추세 성능, 그림 ( d) )는 그림 (c)의 시간 지수에 해당하는 하한 임계값입니다. 다음은 특정 시계열의 과거 표본을 모델링한 사례이다.

AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현

그림 7 모델링 사례

위 그림의 (c) 영역의 표본 분포 히스토그램과 임계값(일부 비정상 샘플이 제거되었습니다. ) 이렇게 심하게 치우친 분포 시나리오에서는 EVT 알고리즘으로 계산된 임계값이 더 합리적이라는 것을 알 수 있습니다.

AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현

그림 8 편향 분포 임계값 비교

4. 모델 훈련 및 실시간 감지

4.1 데이터 흐름 프로세스

대규모 2차 데이터를 실시간으로 감지하기 위해, 실시간 스트리밍을 위해 Flink를 사용합니다. 처리를 출발점으로 삼아 다음과 같은 기술 솔루션을 설계했습니다.

실시간 감지 부분: Flink 실시간 스트림 처리를 기반으로 온라인 감지를 위해 Mafka(Meituan 내의 message queue 구성 요소) 메시지를 소비하고 그 결과는 Elasticsearch에 저장됩니다. (이하 ES)
) 예외 레코드를 생성합니다. 오프라인 교육 부분: Squirrel(Meituan의 내부 KV 데이터베이스)을 작업 대기열로 사용하고, MOD(

)에서 교육 데이터를 읽고, 구성 테이블에서 매개변수를 읽습니다. 훈련 모델은 ES에 저장되고, 훈련의 자동 및 수동 트리거링을 지원하며, 모델 라이브러리를 정기적으로 읽어 모델을 로드하고 업데이트합니다.

다음은 구체적인 오프라인 교육 및 온라인 탐지 기술 설계입니다. AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현

그림 9 오프라인 교육 및 온라인 탐지 기술 설계

4.2 이상 탐지 프로세스

전체 이상 탐지 알고리즘은 다음을 채택합니다. 분할 및 정복 아이디어는 모델 훈련 단계에서 과거 데이터 식별을 기반으로 특징을 추출하고 적절한 탐지 알고리즘을 선택한다는 것입니다. 이는 오프라인 훈련과 온라인 감지의 두 부분으로 나누어집니다. 오프라인은 주로 과거 조건을 기반으로 데이터 전처리, 시계열 분류 및 시계열 모델링을 수행합니다. 온라인은 온라인 실시간 이상 탐지를 위해 주로 오프라인 교육 모델을 로드하고 사용합니다. 구체적인 설계는 아래 그림과 같습니다. AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현

그림 10 이상 탐지 프로세스

5. 제품 운영 최적화 반복 알고리즘의 효율성을 높이고 지속적인 운영 개선을 위해 Horae(

Meituan의 내부 확장형

시계열 데이터 이상 탐지 시스템) 사례 검토 기능을 통해 온라인 탐지, 사례 저장, 분석 최적화, 결과 평가 및 릴리스의 폐쇄 루프가 실현됩니다. AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현

그림 11 작업 프로세스

정확도
: 무작위로 선택 예외가 있는 경우의 일부 감지하고 수동으로 확인하는 것은 81%로 정말 비정상적인 비율입니다. Recall rate
: Fault, Alarm, 기타 소스를 기준으로 해당 인스턴스의 각 지표의 비정상 상태를 검토하고, 모니터링 결과를 바탕으로 Recall rate을 계산하면 82%입니다.

: 정밀도와 재현율의 조화 평균은 81%입니다.

6. 향후 전망

🎜현재 Meituan의 데이터베이스 이상 모니터링 기능은 기본적으로 완료되었습니다. 향후 구체적인 방향은 다음과 같습니다.

예외 유형 인식 능력이 있습니다. 평균 변화, 변동 변화, 스파이크 등의 이상 유형을 감지할 수 있으며 이상 유형에 따른 알람 구독을 지원하고 이를 후속 진단 시스템에 기능으로 입력하여 데이터베이스 자율 생태계 개선^[4] .
Human-in-Loop 환경 구축. 피드백 주석을 기반으로 자동 학습을 지원하여 모델의 지속적인 최적화를 보장합니다^[5].
여러 데이터베이스 시나리오 지원. 이상 탐지 기능은 플랫폼 기반으로 DB 종단 간 오류 보고, 노드 네트워크 모니터링 등과 같은 더 많은 데이터베이스 시나리오를 지원합니다.

7. 부록

7.1 절대 중앙값 편차

절대 중앙값 편차, 즉 중앙값 절대 편차(MAD)는 일변량 수치 데이터의 표본 편차에 대한 강력한 척도입니다^[6], 일반적으로 다음 공식으로 계산됩니다.

여기서 사전이 정규 분포인 경우 일반적으로 C는 1.4826을 선택하고 k는 3을 선택합니다. MAD는 표본 중앙의 50% 영역을 정상 표본으로 가정하고, 비정상 표본은 양쪽 모두 50% 영역 내에 속한다고 가정합니다. 표본이 정규 분포를 따르는 경우 MAD 표시기는 표준 편차보다 데이터 집합의 이상값에 더 잘 적응할 수 있습니다. 표준 편차의 경우, 데이터에서 평균까지의 거리의 제곱이 사용됩니다. 편차가 클수록 결과에 대한 이상치가 미치는 영향은 무시할 수 없습니다. MAD 알고리즘은 데이터에 영향을 미치지 않습니다. 정규성에 대한 요구 사항이 더 높습니다.

7.2 상자 그림

상자 그림은 주로 다음을 포함한 여러 통계를 통해 표본 분포의 이산성과 대칭성을 설명합니다.

Q0: 최소값(Minimum)
Q1: 하위 사분위수 최대값(Maximum)
그림 12 상자 그림
Q1과 Q

AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현 사이의 거리 IQR이라고 합니다. 샘플이 IQR일 때 상위 사분위수에서 1.5배 벗어나면(

또는 하위 사분위수에서 1.5배 IQR에서 벗어남) 표본은 이상값으로 간주됩니다. 정규성 가정을 기반으로 한 세 가지 표준 편차와 달리 상자 그림은 일반적으로 표본의 기본 데이터 분포에 대해 어떤 가정도 하지 않고 표본의 개별 상황을 설명할 수 있으며 표본에 포함된 잠재적 비정상 표본에 대해 더 높은 신뢰도를 갖습니다. . 용인. 편향된 데이터의 경우 Boxplot의 보정된 모델링은 데이터 분포

[7]와 더 일치합니다.

7.3 극단값 이론_{실제 데이터는 알려진 분포로 일반화하기 어렵습니다. 예를 들어, 일부 극단적인 사건(}변칙적)의 경우 확률 모델(예: 가우스 분포_{)은 종종 다음과 같은 확률을 제공합니다. 0입니다. 극값 이론}[8]은 원본 데이터를 기반으로 분포 가정 없이 관찰할 수 있는 극한 현상의 분포를 추론하는 것입니다. 이것이 극단값 분포(EVD)입니다. 그 수학적 표현은 다음과 같습니다(상보 누적 분포 함수 공식^):

여기서 t는 표본의 경험적 임계값을 나타냅니다. 일반화된 파레토 분포의 모양 매개변수와 척도 매개변수인 다양한 시나리오에 대해 서로 다른 값을 설정할 수 있습니다. 주어진 표본이 인위적으로 설정된 경험적 임계값 t를 초과하면 확률 변수 X-t는 일반화된 파레토 분포를 따릅니다. 최대 우도 추정 방법을 통해 모수 추정값 및 를 계산하고 다음 공식을 통해 모델 임계값을 얻을 수 있습니다.

AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현

위 수식에서 q는 위험 모수를 나타내고 n은 전체 샘플 수를 나타냅니다. , Nt는 x-t>0에 대한 샘플 수입니다. 일반적으로 경험적 임계값 t를 추정하기 위한 선험적 정보가 없기 때문에 샘플 경험적 분위수는 숫자 값 t를 대체하는 데 사용될 수 있습니다. 여기서 경험적 분위수 값은 실제 상황에 따라 선택될 수 있습니다.

8. 참고문헌

[1] Ren, H., Xu, B., Wang, Y., Yi, C., Huang, C., Kou, X., ... & Zhang, Q . (2019년 7월) Microsoft의 시계열 이상 탐지 서비스. 지식 검색 및 데이터 마이닝에 관한 제25차 ACM SIGKDD 국제 회의 진행 중(pp. 3009-3017).

[2] Lu, J., Liu , A., Dong, F., Gu, F., Gama, J., & Zhang, G. (2018) 개념 표류에 따른 학습: 지식 및 데이터 엔지니어링에 관한 IEEE 거래, 31(12), 2346 -2363.

[3] Mushtaq, R.(2011). 증강된 디키 풀러 테스트.

[4] Ma, M., Yin, Z., Zhang, S., Wang, S., Zheng, C., Jiang, X., ... & Pei, D. (2020). 클라우드 데이터베이스에서 간헐적으로 느린 쿼리의 근본 원인 진단 Proceedings of the VLDB Endowment, 13(8), 1176-1189.

5] Holzinger, A. (2016). 건강 정보학을 위한 대화형 기계 학습: 언제 인간이 필요합니까? Brain Informatics, 3(2), 119-131.

[6] Leys , C., Ley, C., Klein, O., Bernard, P., & Licata, L. (2013) 이상값 감지: 평균 주위의 표준 편차를 사용하지 말고 중앙값 주위의 절대 편차를 사용하십시오. 사회 심리학, 49(4), 764-766.

[7] Hubert, M., & Vandervieren, E. (2008). 편향된 분포에 대한 조정된 상자 그림, 52(12) , 5186-5201.

[8] Siffer, A., Fouque, P. A., Termier, A., & Largouet, C.(2017년 8월) 극단값 이론을 사용한 스트림의 이상 탐지. 지식 발견 및 데이터 마이닝에 관한 SIGKDD 국제 컨퍼런스(pp. 1067-1075).

위 내용은 AI 알고리즘 기반 데이터베이스 이상 모니터링 시스템 설계 및 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!