Skip to content

Data Scientist / Data Analyst 에 대한 적성 판단 기준 및 '인과성 분석'에 대한 개인적인 궁금증 [긴글주의] #972

@ghost

Description

꼭 모든 질문들에 대한 대답을 해주실 필요는 없습니다. 특정 질문에 대한 대답은 2-3)이런 식으로 해주시면 됩니다.
또한, 질문과 상관없는 여러가지 훈수, 학습 방향 추천 등에 대해서는 언제나 환영입니다!^^

안녕하세요!

저는 국내 대학에서 수학과 통계학을 전공하고 있고, 데이터 분석가 (혹은 데이터 과학자)를 장래희망으로 두고 있습니다.

주전공이 수학이라, 코딩이나 데이터분석에 대한 학습을 하는 데에 적합한 학교 커리큘럼이 부재+부족하여

SW관련 학습은

opentutorials의 생활코딩 강의를 통해 MySQL과 머신러닝을 학습중이고 (HTML도 찔끔 찔러보았습니다)

coursera에서의 mooc 강의(IBM의 Data science강의)를 Financial Aids 신청해둔 상태이며

학교에서 주최하는 몇몇 인공지능 관련 특강을 통해 Azure machine learning studio를 지극히 기초적인 수준에서 다루어보았고

코딩에 대해서는 유튜브에 떠다니는 여러 코딩 기초 개념강의들을 통해 C언어나 파이썬 등의 기본문법만 익힌게 전부입니다.

특정학 교육과정을 따른 교육 (대학에서의 강의 등)을 통해 sw관련 학습을 해 본 적은 없고, 오히려 여러 교양도서들을 통해 SW에 처음 입문하였고 호기심을 가지게 된 계기들 또한 정량적 학습이 아닌 독서와 여러 매체들을 통한 경로가 많았습니다. 일반 서적을 통해 인공신경망 등의 원리들에 대해 얕은 수준으로나마 알게 되었고 딥러닝의 (제가 이해한 얕은 수준으로는) 가중치를 곱하여 결과값을 출력하고, 오차를 바탕으로 가중치를 갱신하는 방식에도 흥미를 가지게 되었습니다.
사실 명시적이고 명확한 커리큘럼을 따라 학습하고 있는 것이 아니기에 설레며 얕은 수준만 학습하기에 성취동기 또한 잘 충족되기도 하지만 동시에 막막하기도 하고 가끔은 끝이 보이지 않아 우울하기도 합니다. 이러한 잡념들과 고민들과 씨름하다보니 크게 두가지의 갈래에 대한 해답을 요구하는 것 같습니다.

  1. 첫째, 주위 컴퓨터공학을 전공하는 여러 친구들에게 '프로그래밍은 재능이다'라는 말들을 많이 들었는데, 실제로 '지식'이 너무 부족하니 '지능'을 추정할 수도 없는 상황이라 제 적성과 재능을 판단할 수 있는 어떤 기준이나, '제 재능이나 적성을 판단할 수 있는 근거가 되는 도전해 볼 만한 과제'가 있으면 합니다. 조금 더 일반화하자면 , 직업으로 삼고자 하는 분야에 대해 조금 더 엄격하게 바라볼 필요가 있으며, 업무에 대한 능력을 향상시킬 방법 또한 중요하지만, 재능의 영역에 대한 궁금증이 있습니다. 이 역시 명확한 커리큘럼이 없이 둥둥 떠다니는 듯한 학습만 하고 있기에 드는 불안함에서 오는 것이겠지만, 그래도 조금의 방향에 대한 스스로의 자신감 부여를 위해서라도 필요하다고 생각합니다.

  2. 둘째, 제가 Data와 관련된 호기심들에 대한 적절성이나 혹시 정답이 있다면 알고 싶습니다.
    2-1. 머신 러닝 모델을 제작하는 데 있어서 실제 raw한 데이터는 정제하는 과정(전처리)이 필수적이라고 알고 있습니다. 그렇다면 실제 현업에서 데이터 분석을 위한 data의 cleaning(?)작업은 Data scientist의 역할인가요 analyst의 역할인가요? 또한, 전처리는 정확히 어떤 과정인것인가요? ex) 특이값 제거, null 데이터 제거 (제 뇌피셜입니다..) 등..

2-2. 인공지능을 통한 예측 모델의 대부분이
독립변수 A, B, C라고 하고 예측하고자 하는 종속변수가 Z라고 한다면, 그 독립변수인 'A,B,C' 를 선택하는 과정은 어느 분야의 role인가요? 사실 이것은 인과성을 추측하기 이전에 선택하는 과정이다보니 도메인지식을 요구할 것이라 생각하는데, 그렇다면 독립변수의 선택은 해당 업종의 전문가의 역할인가요? 혹은 데이터분석 팀 쪽에서 하는 역할인가요?

2-3. 제 머릿속에 개념화된 인공지능을 통한 분석은 '인공지능을 통한 예측은 결국 인과성에 대한 분석을 통해 이루어진다'입니다. (틀렸다면 알려주세요!) 하지만, 제 얕은 지식으로는 데이터를 바탕으로 한 통계적 모델을 통한 해석은 상관관계의 발견에는 우수하지만, 인과관계를 발견하는 데에 필요한 수많은 요소와 요인들에 대한 필요성(?)문제가 머릿속에 대두됩니다.
그렇다면 실제 현업에 사용되는 통계 예측 모델들은 상관관계와 인과관계를 어떤 기준으로 구별하고 판단할 수 있는건가요? 그 자세한 원리가 궁금합니다.

2-4. 마지막으로 제 질문들을 여기까지 읽어주셔서 감사합니다. 비전공자이고 지식의 수준이 얕은만큼 질문 또한 low quality일까봐 부끄럽습니다. 혹시 제 호기심이나 궁금증들을 바탕으로 제가 하면 좋을 것 같은 공부나 분야에 대한 추천도 떠오르신다면 알려주세요!

긴 글 읽어주셔서 다시한번 정말정말 감사합니다.

꼭 모든 질문들에 대한 대답을 해주실 필요는 없습니다. 특정 질문에 대한 대답은 2-3)이런 식으로 해주시면 됩니다.
또한, 질문과 상관없는 여러가지 훈수, 학습 방향 추천 등에 대해서는 언제나 환영입니다!^^

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions