Notice
Recent Posts
Recent Comments
Link
관리 메뉴

Douglas' Space

데이타가 없으면 AI시스템을 개발할 수 없는가? 본문

Computing Tech. Diary/Artificial Intelligence

데이타가 없으면 AI시스템을 개발할 수 없는가?

똘키아빠 2022. 4. 28. 16:15
데이타가 없다면 AI를 개발할 수 없다고 이야기하는 사람이 많습니다. 이는 맞는 말일 수도 있고 틀릴 말 일수도 있다고 생각합니다. 보통 지도학습기반의 DNN의 경우는 정답을 요구하는 데이터(이것을 labeled data라고 함)가 반드시 필요하며 이를 구축하는 것이 매우 어려운 일이기  때문에 맞는 말일 수 있습니다. 그러나 정답없는 데이터(unlabeled data)를 사용하는 다른 학습방법은 데이터의 획득이 용이하거나 필요치 않는 경우도 많습니다. 또한 데이터의 품질과 구성을 어떻게 하느냐에 따라 DNN의 품질이 많이 좌우되기 때문에 데이터가 많다고 좋은 모델을 만든다고 보장할 수도 없습니다.
DNN의 오버피팅(Overfitting)은 DNN이 갖는 문제들 중에 대표적인 것입니다. 오버피팅은 DNN이 학습데이타에는 놀라우리 만큼 정확도를 유지하지만 실제 데이타에서는 오차가 높아지는 현상을 의미합니다. 이것은 DNN이 학습데이터에만 너무 의존하기 때문입니다. 그렇다고 무한정 학습데이터를 만들기도 어렵습니다.  따라서 어느 정도의 데이터가 있어야 원하는 DNN을 생성할 것인가를 판단하기 어렵다는 반증이기도 합니다. 
강화학습의 경우는 데이터보다 경험과 시행착오에 따른 보상체계를 기반으로 하여 학습이 이루어지기 때문에 labeled data가 필요하지 않습니다. 주로 행위를 자율화하는 로봇과 같은 에이전트 모델에 많이 활용됩니다. 예를 들어 자전거 타는 법을 배우는 것과 유사합니다. 어릴 적 자전거타기를 배울 때 여러번 시행착오를 겪으면서 배우는 것과 같습니다. 즉, 에이전트 외부 환경으로 부터 보상을 받으면서 배우게 됩니다. 알파고가 대표적으로 강화학습을 통해 학습한 예입니다.
GPT-3와 같은 언어모델은 엄청난 양의 문서 들을 입력받아 문서에 존재하는 단어, 문장 들의 상관관계를 attention vector라는 것을 스스로 구성하여 초거대 DNN모델을 생성하였습니다. 그리고 이렇게 만들어진 모델을 그대로 특정 분야에 한정된 몇개의 학습 데이터를 사용하여 새로운 모델을 생성합니다. 
전이학습(transfer learning)이라고 하는 학습방법은 기존의 개발된 DNN을 재사용하여 적은 학습데이타를 활용하여 새로운 모델을 생성합니다. 준지도학습(semi-supervised learning)은 작은 수의 데이터로 학습을 하고 unlabeled data를 사용하여 비지도학습을 하는 학습방법을 혼용하여 사용하는 학습방법입니다. 심지어 자가지도학습(self-supervised learning)은 unlabeled data를 활용하여 학습을 하려는 방법입니다. 위에서 설명한 GPT-3와 같은 언어모델이 이에 해당합니다. 지난번 이야기 했던 GAN과 같은 모델은 생성모델을 포함하고 있어 이를 이용하여 데이타를 생성할 수도 있습니다. 
코딩을 하지 않아도 프로그램을 개발하는 시대(low/no code)가 오듯이 데이터가 없어도 AI시스템을 만들 수 있는 시대가 오고 있습니다. 문제는 아이디어 기획, 서비스 기획, 제품기획의 싸움인 것입니다. Why-What-How ladder에서 순서대로 생각하고 문제에 접근하는 것이 필요합니다. 
Comments