10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

王林
풀어 주다: 2023-04-13 08:16:11
앞으로
1908명이 탐색했습니다.

10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

얼굴 인식의 목표

두 가지를 요약하자면, 첫째, 동일한 사람을 인식한다는 것입니다. 상태가 어떻게 변하더라도 자신이 본인임을 알 수 있습니다. 둘째, 서로 다른 사람을 구별할 수 있습니다. 어쩌면 두 사람이 매우 비슷해 보일 수도 있고, 두 사람이 화장을 하고 있을 수도 있지만, 상태가 어떻게 변하더라도 얼굴 인식을 통해 이들이 서로 다른 두 사람임을 알 수 있습니다.

얼굴 인식 자체는 생체 인식 기술의 일종으로 주로 신원 인증 수단을 제공하지만 정확도 측면에서는 얼굴 인식이 가장 높지 않습니다. 얼굴 인식은 조명과 같은 다른 많은 조건의 영향을 받습니다. 얼굴 인식의 장점은 일반적으로 사용자의 협조가 많이 필요하지 않다는 점이며, 요즘에는 컴퓨터 카메라, 휴대폰 영상 입력 장치, 카메라 장비 등 다양한 장소의 감시 카메라가 인기를 얻고 있습니다. 얼굴 인식을 할 수 있습니다. 따라서 안면인식을 도입할 경우 신규 투자 비용이 매우 적을 수 있다는 점이 장점이다.

얼굴 인식 프로세스

얼굴 인식의 핵심 프로세스 소위 핵심 프로세스는 어떤 종류의 얼굴 인식 시스템이든 기본적으로 이 프로세스가 있다는 것을 의미합니다. 첫 번째, 얼굴 검출, 두 번째 단계, 얼굴 정렬, 세 번째 단계, 특징 추출은 모든 사진에 대해 수행해야 하는 단계입니다. 비교 시 추출된 두 얼굴이 해당 그룹에 속하는지 확인합니다. 같은 사람.

10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

얼굴 감지

얼굴 감지는 큰 장면에서 얼굴이 있는지 판단하고, 얼굴의 위치를 ​​찾아 잘라내는 것입니다. 객체 감지 기술의 일종으로 전체 얼굴 인식 작업의 기초가 됩니다. 얼굴 검출의 기본 방법은 이미지 피라미드에서 창을 슬라이드한 후 분류기를 사용하여 후보 창을 선택한 후 회귀 모델을 사용하여 위치를 수정하는 것입니다.

10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

위에 그려진 세 개의 창 중 하나는 0.3배, 0.6배, 1.0배입니다. 얼굴의 위치가 불확실하고 크기를 확인할 수 없는 경우 이 기술을 사용하여 이미지 자체를 다르게 만들 수 있습니다. 크기와 슬라이딩 창의 크기는 동일합니다. 딥 네트워크에 입력되는 이미지의 크기는 일반적으로 고정되어 있으므로 앞의 슬라이딩 윈도우도 기본적으로 고정되어 있습니다. 고정된 슬라이딩 창이 다양한 범위를 포괄할 수 있도록 전체 이미지의 크기가 다양한 비율로 조정됩니다. 여기에 표시된 0.3, 0.6 및 1.0은 실제 사용 시 다른 여러 배수가 있을 수 있습니다.

분류자는 슬라이딩 창이 슬라이딩되는 위치에 얼굴 전체가 포함되지 않을 수도 있고, 얼굴 전체보다 클 수도 있기 때문에 슬라이딩 윈도우의 각 위치를 보고 사람의 얼굴인지 판단하는 것을 말합니다. 보다 정확한 얼굴을 찾기 위해 슬라이딩 윈도우를 회귀 모델에 넣으면 얼굴 감지의 정확도를 수정하는 데 도움이 될 수 있습니다.

입력은 슬라이딩 창이므로 출력 중에 면이 있으면 어느 방향을 수정해야 하고 어느 정도 수정해야 합니까? 따라서 Δx, Δy, Δw, Δh는 해당 좌표와 너비 및 크기입니다. 높이를 교정해야 합니다. 보정량을 갖고 분류기를 이용하여 사람 얼굴의 창이라고 판단한 후, 이 둘을 합치면 좀 더 정확한 사람 얼굴의 위치를 ​​얻을 수 있다.

위는 얼굴 감지 과정이며, 다른 물체 감지에도 적용할 수 있습니다

얼굴 감지의 평가 지표

어떤 모델이든 속도와 정확성 두 가지 측면으로 나누어집니다

1 .Speed

(1) 속도는 지정된 해상도에서의 감지 속도입니다. 왜냐하면 슬라이딩 윈도우가 특정 위치로 미끄러질 때마다 분류 및 회귀 판단이 이루어져야 하기 때문입니다. 이미지가 클수록 감지 판단이 필요합니다. 창이 많을수록 전체 얼굴 감지 시간이 길어집니다.

따라서 알고리즘이나 모델의 품질을 평가하려면 고정된 해상도에서의 감지 속도를 살펴봐야 합니다. 일반적으로 감지 속도는 100밀리초, 200밀리초, 50밀리초, 30밀리초 등 사진의 얼굴을 감지하는 데 걸리는 시간일 수 있습니다.

속도를 표현하는 또 다른 방법은 fps입니다. 요즘 일반 웹 카메라는 25fps 또는 30fps인 경우가 많습니다. 이는 초당 얼마나 많은 사진을 처리할 수 있는지를 의미하는 것으로 얼굴 감지가 실시간 감지를 달성할 수 있는지 판단하는 데 사용될 수 있습니다. . 얼굴 인식의 fps 수가 카메라의 fps 수보다 크면 실시간으로 달성할 수 있지만 그렇지 않으면 불가능합니다.

(2) 속도는 같은 사진 속 얼굴 수에 영향을 받나요? 실제 작업에서는 주로 슬라이딩 창 수와 적중 수에 영향을 받지 않기 때문에 대부분 영향을 받지 않습니다. 특히 무겁지만 약간의 임팩트가 있습니다.

2. 정밀도

정밀도는 기본적으로 재현율, 오탐지율, ROC 곡선에 의해 결정됩니다. 재현율은 사진에서 사람의 얼굴이 차지하는 비율을 말하며, 실제 모델에서는 사진이 사람의 얼굴이라고 판단하는 비율을 의미합니다. 사람의 얼굴로 잘못 판단되었습니다.

ACC 정확도

ACC는 정확한 샘플 수를 총 샘플 수로 나누어 계산합니다. 예를 들어 얼굴 감지를 위해 10,000장의 사진을 찍으면 이 10,000장의 사진 중 일부는 얼굴이 있고 일부는 얼굴이 없습니다. . 의. 그런 다음 올바른 비율이 무엇인지 결정하십시오.

하지만 이 정확도에 문제가 있습니다. 이를 판단에 사용하면 양성 샘플과 음성 샘플의 비율과는 아무런 관련이 없습니다. 일반적으로 양성 샘플의 정확성과 음성 샘플의 정확성에만 관심이 있습니다. 이 모델의 정확도가 90%이면 다른 사람들은 양성 샘플과 음성 샘플의 차이를 알지 못합니다. 회귀를 포함한 분류를 포함하여 일반적으로 분류 모델은 먼저 회귀를 사용하여 소위 신뢰 수준을 얻습니다. 신뢰 수준이 특정 값보다 크면 신뢰 수준으로 간주됩니다. 동일한 값보다 작으면 그렇지 않은 것으로 간주됩니다.

ACC 통계 모델은 조정 가능합니다. 즉, 신뢰 수준을 조정하면 정확도가 변경됩니다.

그래서 ACC 값 자체는 샘플의 비율에 크게 영향을 받기 때문에, 테스트 지표에서 99.9%에 도달했다고 표시될 때 이 값만으로는 모델의 품질을 특성화하는 데 사용하는 것이 약간 문제가 있습니다. 속기 쉬운 비교이거나 이 통계는 편향되어 있습니다. 이 문제를 해결하기 위해 일반적으로 ROC라는 곡선이 이 모델의 정확도를 특성화하는 데 사용됩니다

ROC 수신기 작동 특성 곡선

10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

Abscissa: FPR(False Positive Rate), 이는 음의 샘플 오류입니다. rate

수직 좌표: TPR(True Positive Rate), 양성 샘플의 정확한 비율

은 양성 샘플과 음성 샘플에 대한 알고리즘의 성능을 구분할 수 있으며 곡선의 모양은 양성 샘플의 비율과 관련이 없습니다. 그리고 부정적인 샘플.

ROC(Receiver Operating Characteristic) 곡선은 가로 좌표와 세로 좌표에 음의 샘플 오류율과 양의 샘플 올바른 비율을 표시하는 것입니다. 이 경우 동일한 모델은 이 그래프에서 점을 볼 수 없거나 A가 아닙니다. 단일 데이터 조각이지만 한 줄입니다. 이 선은 신뢰도 임계값으로, 조정할수록 엄격해지고 낮을수록 덜 엄격해집니다. 그 이상에서는 신뢰도 임계값 변경의 영향을 반영할 수 있습니다.

앞으로는 정확도가 얼마인지 직접적으로 묻기보다는 ROC 곡선을 살펴보는 것이 모델의 성능을 판단하기 더 쉽게 만드는 것이 가장 좋습니다.

얼굴 정렬

10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

얼굴 정렬의 목적은 얼굴 질감을 최대한 표준 위치로 조정하고 얼굴 인식기의 난이도를 줄이는 것입니다.

인위적으로 난이도를 줄이려면 먼저 정렬하면 됩니다. 즉, 감지된 사람의 눈, 코, 입이 모두 같은 위치에 놓이도록 하면 모델을 비교할 때 됩니다. 같은 위치를 찾는 한, 서로 같은지, 비슷한지에는 여전히 큰 차이가 있습니다. 따라서 이 단계에서 현재 사용하는 일반적인 방법은 이 그림에서 핵심 특징점을 찾는 2차원 방법입니다. 일반적으로 5개 점, 19개 점입니다. 60개 이상의 지점이 있으며, 80개 이상의 지점이 있습니다. 하지만 얼굴 인식의 경우 기본적으로 5개면 충분합니다.

이 5개 점 이외의 다른 점의 이미지는 보간과 유사한 작업을 수행한 다음 해당 위치에 붙여넣은 후 내부의 얼굴 인식기로 보낼 수 있습니다. . 이것은 일반적인 접근 방식이지만 좀 더 최첨단 접근 방식도 있습니다.일부 연구 기관에서는 소위 3D 얼굴 정렬을 사용하고 있는데, 이는 45도 회전했을 때 얼굴이 어떻게 보이는지 알려준다는 의미입니다. 따라서 이런 종류의 그림으로 훈련한 후에 그는 왼쪽과 오른쪽으로 45도 회전된 그림을 볼 때 오른쪽으로 회전했을 때의 모습과 같을 것이라는 것을 알게 될 것이며 이 모델은 이를 추측할 수 있습니다. .

얼굴 특징 추출 알고리즘

이전의 전통적인 방법으로는 소위 로컬 텍스처 모델, 글로벌 텍스처 모델, 형상 회귀 모델 등이 있었습니다. 현재 더 인기 있는 것은 심층 컨벌루션 신경망, 순환 신경망, 또는 3DMM 매개변수가 있는 컨벌루션 신경망을 사용하는 것입니다. 소위 3DMM 매개변수에는 3차원 정보가 포함되어 있으며 계단식 심층 신경망이 있습니다.

10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

계단식 심층 신경망, 즉 얼굴을 얻으려면 먼저 5개 점의 위치를 ​​추론해야 합니다. 이를 한 번에 수행하려면 이 모델이 매우 복잡해야 합니다.

하지만 이 모델의 복잡성을 어떻게 줄일 수 있을까요?

즉, 네트워크에 처음 입력한 후 추측이 이루어집니다. 이 추측은 허용 가능하지만 사람 얼굴의 5개 지점이 어디에 있는지 대략적으로 알 수 있습니다. 그런 다음 이 5개 점과 원본 이미지를 두 번째 네트워크에 넣어 대략적인 보정량을 구합니다. 기본 5개 점을 확보한 다음 보정량을 찾은 후에는 원본 이미지에서 직접 정확한 5개 점을 찾는 것보다 낫습니다. 이 점은 조금 더 쉽습니다. 따라서 이러한 점진적인 개선 방법을 사용하고 여러 네트워크를 계단식으로 연결하면 속도와 정확성 사이에서 더 나은 균형을 얻을 수 있습니다. 실제로 지금은 기본적으로 두 개의 레이어를 사용하며 거의 동일합니다.

얼굴 특징점 추출을 위한 평가 지수

10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

NRMSE(Normalized Root Mean Square Error)는 정규화된 평균 제곱근 오차

를 사용하여 각 특징점의 좌표와 라벨링된 특징점 간의 차이를 측정합니다. 좌표.

정확도

다양한 크기의 얼굴을 함께 비교할 수 있도록 통계적으로 정규화된 평균 제곱근 오차라고 하는 것이 사용됩니다. 예를 들어 종이에 5개의 점을 그린 다음 기계가 이 5개 점 사이의 거리를 알려줍니다. 주어진 값이 실제 거리에 가까울수록 예측이 더 정확해집니다. 일반적으로 예측값에는 약간의 편차가 있습니다. 그렇다면 이 정확도 값을 어떻게 표현해야 할까요? 우리는 보통 거리의 평균이나 제곱평균제곱근으로 표현합니다. 그러나 문제는 동일한 기계가 서로 다른 크기의 이미지를 예측할 때 정확도 값이 다르게 나타나게 된다는 것입니다. 이미지가 클수록 오류의 절대값이 높아지기 때문입니다. 크기가 다른 면에도 동일한 원칙이 적용됩니다. 따라서 우리의 해결책은 사람 얼굴의 원래 크기를 고려하는 것입니다. 일반적으로 분모는 사람의 눈 사이의 거리 또는 사람의 얼굴의 대각선 거리이며, 그런 다음 거리 차이를 눈 사이의 거리로 나눕니다. 또는 얼굴의 대각선으로 나누면 되는데, 이 경우 기본적으로 얼굴의 크기에 따라 변하지 않는 값을 구하여 평가에 활용하면 됩니다.

얼굴 비교

(1) 목적: 정렬된 두 얼굴이 같은 사람인지 확인하기

(2) 난이도: 같은 얼굴이 특히 조명의 영향을 받는다고 하는 등 상황에 따라 다른 상태를 나타냅니다. 연기, 메이크업 등 두 번째는 2차원 사진에 매핑된 다양한 매개변수로 인해 발생합니다. 소위 2차원 매개변수 매핑은 촬영 장비가 사진을 찍을 때 그 사람에게 나타나는 각도, 즉 얼굴이 다음과 같이 보인다는 것을 의미합니다. 그와의 거리, 초점이 정확하든 아니든, 촬영 각도 등은 모두 빛 축적에 영향을 미치므로 동일한 얼굴이 다른 상태로 나타나게 됩니다. 세 번째는 나이와 성형수술의 영향이다.

얼굴 비교 방법

(1) 기존 방법

1. HOG, SIFT, 웨이블릿 변환 등과 같은 일부 특징을 수동으로 추출합니다. 일반적으로 추출된 특징에는 고정된 매개변수가 필요할 수 있습니다. 즉, 훈련이나 학습이 필요하지 않습니다. 이 기능을 비교하려면 고정된 알고리즘이 사용됩니다.

(2) 깊이 방법

주요 방법은 깊이 방법, 즉 Deep Convolutional Neural Network입니다. 이 네트워크는 일반적으로 이전의 특징 추출 방법을 대체하기 위해 DCNN을 사용합니다. 사람의 얼굴에 있는 다양한 특징을 파악하는 데에는 DCNN에 많은 매개변수가 있습니다. 이러한 매개변수는 사람이 알려주는 것이 아니라 학습됩니다. 학습하면 사람이 요약하는 것보다 더 나을 것입니다.

그러면 획득된 특징 세트는 일반적으로 128차원, 256차원 또는 512차원 또는 1024차원 차원을 가질 수 있으며, 특징 벡터 간의 거리를 판단하기 위해 일반적으로 유클리드 거리 또는 코사인 유사성을 사용합니다.

얼굴 비교의 평가 지표도 속도와 정확도로 나누어집니다. 속도에는 단일 얼굴 특징 벡터의 계산 시간과 비교 속도가 포함됩니다. 정확도에는 ACC와 ROC가 포함됩니다. 이전에 소개되었으므로 여기서는 비교 속도에 중점을 둡니다.

일반적인 비교는 두 점 사이의 거리를 계산하는 간단한 연산입니다. 두 벡터의 내적은 한 번만 수행하면 됩니다. 그러나 얼굴 인식이 1:N 비교를 만나면, N 라이브러리가 매우 클 때, 사진을 얻어서 N 라이브러리에서 검색하면 검색 횟수가 매우 커질 것입니다. 예를 들어 N 라이브러리가 100만 개라면 100만 개를 검색해야 할 수도 있습니다. 현재로서는 총 시간에 대한 요구 사항이 있으므로 이 비교를 가속화할 수 있는 다양한 기술이 있습니다.

얼굴 인식과 관련된 기타 알고리즘

주로 얼굴 추적, 품질 평가, 생체 인식 등이 있습니다.

● 얼굴 추적

감시와 같은 영상 얼굴 인식 시나리오에서, 지나가는 동일한 사람의 모든 프레임에 대해 전체 얼굴 인식 프로세스가 실행되면 컴퓨팅 리소스가 낭비될 뿐만 아니라 일부 낮은 품질이 발생할 수 있습니다. 프레임은 잘못된 인식을 유발하므로 어떤 얼굴이 동일한 인물인지 판별하는 것이 필요합니다. 그리고 인식할 적절한 사진을 선택하면 모델의 전반적인 성능이 크게 향상됩니다.

요즘에는 얼굴 추적뿐만 아니라 다양한 물체 추적이나 차량 추적 등에서도 추적 알고리즘을 사용하게 됩니다. 이러한 알고리즘은 탐지에 의존하지 않거나 항상 의존하지는 않습니다. 예를 들어 처음에 물체를 감지한 후에는 전혀 감지하지 않고 추적 알고리즘만 사용하여 감지합니다. 동시에 매우 높은 정확도를 달성하고 손실을 방지하기 위해 각 추적에는 많은 시간이 걸립니다.

추적된 얼굴이 얼굴 인식기의 범위와 일치하지 않는 것을 방지하기 위해 일반적으로 얼굴 감지기를 감지에 사용합니다. 이 감지 방법은 일부 시나리오에서는 상대적으로 가벼운 얼굴 감지 추적에 의존합니다. 속도와 품질 사이를 달성할 수 있습니다.

10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

이 감지 방법을 감지에 의한 추적이라고 합니다. 즉, 얼굴 감지 후 각 얼굴의 4가지 값, 즉 좌표 위치에 따라 여전히 각 프레임에서 얼굴 감지가 수행됩니다. , 너비 높음, 두 프레임 전후의 얼굴 위치와 크기를 비교하면 두 얼굴이 동일한 움직이는 객체에 속하는지 추론할 수 있습니다.

● 선택적 간격 전체 화면 감지

는 감지에 의한 추적을 수행할 때 전후의 두 프레임에서 전체 화면 감지를 수행하는 것을 의미합니다. 소위 전체 화면 감지는 전체 화면을 스캔하는 것을 의미합니다. 그러나 이 방법은 시간이 많이 걸리므로 몇 프레임마다 전체 화면을 수행하는 다른 방법이 사용되기도 하며 일반적으로 다음 프레임은 너무 많이 변하지 않으면 됩니다. 이전 프레임의 위치를 ​​상, 하, 좌, 우로 파악하고, 다시 감지하려고 하면 감지될 확률이 높은 경우가 많아 대부분의 프레임을 건너뛸 수 있습니다.

몇 프레임마다 전체 화면 감지를 수행해야 하는 이유는 무엇입니까?

새로운 객체가 들어오는 것을 방지하기 위함입니다. 이전 객체의 위치만을 기준으로 검색을 하면, 들어올 때 감지되지 않는 새로운 객체가 있을 수 있습니다. 이를 방지하려면 5~10프레임 정도 기다리면 됩니다. 다시 시도해 보세요. 전체 화면 테스트를 진행해 보세요.

● 얼굴 품질 평가

얼굴 인식기 훈련 데이터의 한계 등으로 인해 모든 상태의 얼굴에 대해 잘 수행하는 것은 불가능합니다. 품질 평가는 감지된 얼굴이 인식기의 특성과 얼마나 잘 일치하는지를 결정합니다. 시스템의 전반적인 성능을 향상시키기 위해 일치도가 높은 얼굴만 선택하고 인식을 위해 전송합니다.

얼굴 품질 평가에는 다음 4가지 요소가 포함됩니다.

① 얼굴 크기가 너무 작으면 인식 효과가 크게 떨어집니다.

② 얼굴 자세는 3개 축의 회전 각도를 의미하며 일반적으로 인식기 훈련에 사용되는 데이터와 관련이 있습니다. 훈련 중에 자세가 작은 얼굴이 대부분 사용되는 경우 실제로 인식을 수행할 때 편향이 큰 얼굴을 선택하지 않는 것이 가장 좋습니다. 그렇지 않으면 적용할 수 없습니다.

③ 흐릿한 정도, 이 요소는 매우 중요합니다. 사진의 정보가 손실되면 인식에 문제가 발생합니다.

4 교합, 눈, 코 등을 가리면 해당 부분의 특징을 얻을 수 없거나, 얻은 특징이 잘못되어 이후 인식에 영향을 미칩니다. 가려진 것으로 판단되면 폐기하거나 인식 모델에 넣지 않는 등의 특수 처리를 수행합니다.

● 생체 인식

이것은 모든 얼굴 인식 시스템이 직면하게 되는 문제입니다. 얼굴만 인식되면 사진도 통과될 수 있습니다. 시스템이 공격당하는 것을 방지하기 위해 이것이 진짜 얼굴인지 가짜 얼굴인지를 판단하는 몇 가지 판단이 내려질 것입니다.

기본적으로 현재 세 가지 방법이 있습니다.

① 전통적인 동적 인식. 많은 은행의 현금 인출 기계에서는 사용자에게 눈을 깜박이거나 고개를 돌리는 등 사용자의 협조가 필요합니다. 눈을 깜빡이든지 말든지, 돌아서서 같은 협력을 했습니다. 따라서 동적인식에는 문제가 있는데, 즉 사용자의 협조가 많이 필요하므로 사용자 경험이 다소 나쁠 것이다.

② 정적 인식은 행동으로 판단하는 것이 아니라, 사진 자체만으로 진짜 얼굴인지 가짜 얼굴인지 판단하는 것을 의미합니다. 일반적으로 사용되는 공격 방법을 기반으로 하며 상대적으로 편리합니다. 예를 들어 휴대폰이나 디스플레이 화면을 사용하여 공격합니다.

이런 종류의 화면의 발광 능력은 실제 조명 조건에서 사람 얼굴의 발광 능력과 다릅니다. 예를 들어 1,600만 발광 색상을 갖춘 모니터는 가시광선, 즉 모든 대역의 발광 능력을 달성할 수 없습니다. 연속됩니다. 모두 발송될 수 있습니다. 따라서 이러한 종류의 화면을 촬영할 때 실제 자연 환경의 기본 이미징과 비교하면 인간의 눈에도 약간의 변화와 부자연스러움이 있음을 알 수 있습니다. 이러한 부자연스러움을 훈련용 모델에 적용한 후에도 이 미묘한 차이를 통해 실제 얼굴인지 여부를 판단할 수 있습니다.

3 스테레오 인식, 두 대의 카메라 또는 깊이 정보가 있는 카메라를 사용하면 카메라에서 캡처된 각 지점의 거리를 알 수 있으며 이는 사람의 3D 이미징과 동일합니다. 촬영하고 화면은 평면적인 사람임에 틀림없다. 평면적인 사람은 확실히 실제 사람이 아니라는 것을 깨달아라. 납작한 얼굴을 제외하기 위해 3차원 인식 방식을 활용한 것이다.

얼굴 인식 시스템 구성

먼저 분류를 하자면, 비교 대상 관점에서는 1:1 인식 시스템과 1:N 인식 시스템이 있고, 사진 비교 시스템과 영상 비교 시스템이 있습니다. 시스템 배포 형태에 따라 프라이빗 배포, 클라우드 배포, 모바일 디바이스 배포가 있습니다.

사진 1:1 인식 시스템

10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

1:1 인식 시스템이 가장 간단합니다. 두 장의 사진을 찍어 각 사진에 대한 특징 벡터를 생성한 다음 두 특징 벡터를 비교하여 동일한지 확인합니다. 개인을 식별할 수 있습니다.

사진 1: N의 인식 시스템

10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

1: N의 인식 시스템, 사진 자료가 동일한 샘플 라이브러리에 있는지 여부를 결정합니다. 이 샘플 라이브러리는 미리 준비되어 있으며 화이트리스트 또는 블랙리스트가 있을 수 있습니다. 여기에는 각 사람의 사진이 포함되어 있으며 이 사진에서 일련의 특징 벡터가 생성됩니다. 이는 샘플 라이브러리로 사용되며, 업로드된 사진을 샘플 라이브러리의 모든 특징과 비교하여 어느 것이 사람과 가장 유사한지 확인하는 1:N 인식 시스템입니다.

동영상 1:1 인식 시스템

10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

동영상 1:1 인식 시스템은 사진의 1:1 시스템과 유사하지만 비교대상은 사진이 아닌 영상 스트림입니다. 비디오 스트림을 받은 후 감지, 추적, 품질 평가를 수행하고 적절한 사진을 얻은 후 비교합니다.

동영상 1:N 인식 시스템

10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

동영상 1:N 적응 시스템은 1:N 사진 시스템과 유사하지만, 인식을 위해 비디오 스트림을 사용하고 감지, 추적, 품질도 요구된다는 점만 다릅니다. .

10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학

소위 시스템 구성은 꼭 얼굴인식 시스템일 필요는 없으며, 아마도 다양한 AI 시스템에서도 마찬가지일 것입니다. 첫 번째는 CPU 또는 GPU에서 실행되는 컴퓨팅 리소스 계층입니다. GPU에서 실행하면 CUDA, CUDN 등도 지원할 수 있습니다.

두 번째는 딥 러닝 포워드 네트워크 컴퓨팅 라이브러리, 매트릭스 컴퓨팅 라이브러리 및 이미지 처리 도구 라이브러리를 포함한 컴퓨팅 도구 계층입니다. 알고리즘을 만드는 모든 사람이 자신의 데이터 작업을 작성하는 것은 불가능하므로 TensorFlow, MXNET 또는 Caffe 등과 같은 일부 기존 데이터 작업 라이브러리를 사용하거나 자체 세트를 작성할 수 있습니다.

위 내용은 10,000 단어의 긴 기사, 얼굴 인식 알고리즘 및 시스템에 대한 대중 과학의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿