머신러닝의 반복학습에 대한 의문

사회과학을 전공하고, 기초통계에 대해서는 회귀분석+@ 정도의 지식이 있는 상태에서 처음으로 머신러닝야학을 통해 공부를 시작해서 따라가고 있습니다. 

Tensorflow101 에서 첫번째 딥러닝 - 레모네이드 판매를 예측까지 학습한 상태입니다. 수업에서 원리나 문법을 자세히 설명해주시는 대신 간략한 설명과 함께 따라하면서 실행해보는 과정이라 재미있게 공부하고 있습니다. 그런데 첫번째 딥러닝 모델과 예측을 따라 해보면서 의문이 생겼습니다.

해당 수업에서 모델에 학습시키는 데이터는 observation갯수가 6개인데, 이 6개를 반복해서 학습시켜서 예측을 한다면 기존에 가지고 있는 데이터가 과대대표되는 문제가 생기는 것 아닌가요?

예를 들어 모델의 정확성을 높이고 싶을 때 데이터의 n갯수 자체를 늘리는 것은 이해가 됩니다. observation의 갯수가 늘어날수록 거기에서 얻을 수 있는 정보값이 많아진다는 뜻이니까요 그런데 데이터가 가지고 있는 정보값이 한정된, 제한된 데이터를 반복해서 학습시킴으로서 모델의 정확성을 높인다는 개념이 잘 이해가 가지 않습니다. 
정보값이 변하지 않는 상태로 n갯수가 늘어나면 수치적으로는 당연히 모델의 정확도가 올라가지만, 실제로 그게 더 좋은 예측력을 가지게 된다고 할 수는 없는 것 아닌가요? 어떤 원리를 통해서 동일한 데이터의 반복학습이 모델의 정확성을 높이는 것일까요? 

너무 궁금합니다! 


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

머신러닝의 반복학습에 대한 의문 #1142

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

머신러닝의 반복학습에 대한 의문 #1142

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions