목록전이학습 (2)
Douglas' Space

딥러닝기반의 인공지능 시스템 개발에서의 가장 어렵거나 많은 비용이 드는 것은 지도학습을 위한 학습데이타를 생성하는 것입니다. 예를 들어 표적인식 등에 가장 많이 사용하는 CNN기반의 딥러닝 모델의 경우 학습을 위한 labeled data를 만드는 데 많은 비용이 들거나 데이터를 만들기가 어려운 경우가 대부분입니다. 이러한 경우에 사용하는 방법이 전이학습(Transfer Learning)입니다. 전이학습은 많은 데이타셋으로 이미 학습된 모델(이를 pre-trained model이라고 함)을 데이터셋이 적은 분야에 재활용하여 사용하는 방법을 말합니다. 이렇게 재사용하는 것을 fine-tuning한다고 부릅니다. CNN을 예로 들어 설명해 보도록 하겠습니다. CNN은 지난번 이야기한 것처럼 아래와 같이 크게 ..
데이타가 없다면 AI를 개발할 수 없다고 이야기하는 사람이 많습니다. 이는 맞는 말일 수도 있고 틀릴 말 일수도 있다고 생각합니다. 보통 지도학습기반의 DNN의 경우는 정답을 요구하는 데이터(이것을 labeled data라고 함)가 반드시 필요하며 이를 구축하는 것이 매우 어려운 일이기 때문에 맞는 말일 수 있습니다. 그러나 정답없는 데이터(unlabeled data)를 사용하는 다른 학습방법은 데이터의 획득이 용이하거나 필요치 않는 경우도 많습니다. 또한 데이터의 품질과 구성을 어떻게 하느냐에 따라 DNN의 품질이 많이 좌우되기 때문에 데이터가 많다고 좋은 모델을 만든다고 보장할 수도 없습니다. DNN의 오버피팅(Overfitting)은 DNN이 갖는 문제들 중에 대표적인 것입니다. 오버피팅은 DNN이..