목록준지도학습 (2)
Douglas' Space
labeled data를 만드는 것은 많은 비용이 투자되는 작업이라는 것은 계속 설명드리고 있기 때문에 모든 분이 충분히 이해하실 것이라 생각합니다. 그래서 지난 시간에 전이학습이나 자기주도학습에 대한 이야기를 했습니다. 오늘 이러한 관점에서 적은 데이타로 성능을 올릴 수 있는 또 다른 방법인 semi supervised learning(SmSL), 준지도학습에 대해 살펴보도록 하겠습니다. 우리가 labeled data를 많이 확보하려는 이유는 무엇인가요? 근본적인 것은 모델의 성능을 높이기 위한 것입니다. 따라서 labeled data를 만드는 비용이 많이 들거나 불가능한 경우에 우리가 할 수 있는 방법은 모델의 성능을 높이기 위해 labeled data를 만들지 않고 성능을 높일 수 있는 방법입니다...
데이타가 없다면 AI를 개발할 수 없다고 이야기하는 사람이 많습니다. 이는 맞는 말일 수도 있고 틀릴 말 일수도 있다고 생각합니다. 보통 지도학습기반의 DNN의 경우는 정답을 요구하는 데이터(이것을 labeled data라고 함)가 반드시 필요하며 이를 구축하는 것이 매우 어려운 일이기 때문에 맞는 말일 수 있습니다. 그러나 정답없는 데이터(unlabeled data)를 사용하는 다른 학습방법은 데이터의 획득이 용이하거나 필요치 않는 경우도 많습니다. 또한 데이터의 품질과 구성을 어떻게 하느냐에 따라 DNN의 품질이 많이 좌우되기 때문에 데이터가 많다고 좋은 모델을 만든다고 보장할 수도 없습니다. DNN의 오버피팅(Overfitting)은 DNN이 갖는 문제들 중에 대표적인 것입니다. 오버피팅은 DNN이..