Notice
Recent Posts
Recent Comments
Link
Douglas' Space
화자인식기술 본문
지난번 소개한 음성인식은 특정한 개인에 종속되지 않고 사람이 발성하는 언어를 이해하여 텍스트로 변환하는 기술입니다. 화자인식기술은 특정 개인이 발성한 음성을 인식하여 그 화자가 누구인가를 알아내는 기술입니다. 다시 말해 음성정보를 입력하는 것은 동일하지만 그 출력 결과는 발화한 내용을 출력하는 것이 음성인식이고, 발화한 사람이 누구인지를 식별하는 것이 화자인식입니다. 따라서 인식하고자 하는개별적인 화자들의 음성 특징이 필요할 것이라는 것을 쉽게 짐작할 수 있을 것입니다. 아래 그림은 음성인식과 화자인식의 차이점을 설명하고 있습니다.
또한 화자인식의 수준 또는 기능을 화자식별(speaker identification)과 화자검증(speaker verification)으로 나눌 수 있습니다. 화자식별은 등록된 화자들의 정보를 미리 등록하고 이 등록된 정보에 존재하는 정보와 가장 유사도가 높은 사람을 식별하는 것입니다. 즉, 화자식별에서는 등록되지 않은 사람을 거부하지 않고 유사도가 가장 높은 사람을 매칭시켜줄 뿐입니다. 그러나 화자검증은 대상으로 하는 화자는 하나이고 따라서 목표화자와 일치하는 화자인 경우만 승인되고 그렇지 않은 경우는 거부하는 것입니다.
화자인식의 운영측면에서 문장독립인 경우와 문장종속인 경우로 분류할 수 있습니다. 문장독립은 화자인식을 위하여 발성하는 음성의 문장 형식이나 종류에 제한이 없습니다. 그러나 문장종속은 인식을 위한 문장의 형식이나 종류만을 대상으로 합니다. 따라서 편리성이나 보편성에서는 문장종속보다는 못하지만 성능면에서는 장점을 가질 수 있습니다.
일반적으로는 화자검증의 경우 의 다양한 화자들의 음성데이타를 반영한 배경화자모델(Backgournd model)을 구축하고, 이를 기반으로 목표로 하는 화자들의 적은 양의 음성데이터를 반영한 목표화자모델(Speaker model)을 구성하여, 이 두 모델간의 비율을 유사도로 계산하여 최종적으로 화자를 검증합니다. 이러한 모델은 딥러닝 모델을 의미하는 것이 아니라 GMM(Gaussian Mixture Model)과 같은 확률분포 또는 i-vector와 같은 특징벡터 등을 의미합니다.
그러나 최근에는 이래 그림과 같이 음성인식의 End-to-End의 방식처럼 모든 과정을 딥러닝에 의해 처리하는 것이 최근의 동향이라고 할 수 있습니다.
또한 기술적으로는 화자인식기술은 아니지만 화자가 포함되는 음성처리 기술중에 화자분리(Speaker Separation)과 화자분할(Speaker Diarization)이라는 기술입니다.
화자분리는 아래 그림처럼 두사람 이상이 동시에 발성을 했을 때 음성이 겹치는 것을 분리하는 기술입니다.
화자분할은 아래 그림처럼 두사람 이상이 대화를 하는 경우 각 대화하는 사람을 구분하는 기술입니다.
이러한 음성과 관련한 처리기술이 기존에는 확률적 모델을 기반으로 구성되었던 것이 부분 또는 전체적으로 딥러닝모델로 대체되고 있습니다.
'Computing Tech. Diary > Artificial Intelligence' 카테고리의 다른 글
지능이란 무엇인가? (0) | 2022.08.21 |
---|---|
50파운드 영국지폐의 비밀 (0) | 2022.08.11 |
음성인식 및 합성 기술 (0) | 2022.05.29 |
차원 축소(Dimensionality Reduction)에 대해 (0) | 2022.05.07 |
Federated Learning vs. Distributed Learning (0) | 2022.05.02 |
Comments