빅데이터분석기사 비전공자 - bigdeiteobunseoggisa bijeongongja

�� 4�� ������� �ô� �ӿ� ������ ���Ἲ�� ��ȸ�� �ٺ������� ��ȭ��Ű�� ����Ʈ���� ����� ������� ���ο� ��������� �ô밡 ������ �ֽ��ϴ�. ������, �κ�����, �ΰ�����(AI), Ŭ����, ����ü��, �������� ���� �� �ֿ� ����Դϴ�. �����Ͷ� ��(volume)�� �ſ� ����, ���� �ӵ�(velocity)�� ������, ����(variety)�� �ſ� �پ��� �������Դϴ�.

������ �м����� �� 4�� ������� �ô븦 �̲��� �� ������ ������ ���� �缺�� ���� ������� �ڰ����Դϴ�. ������ ���� ����� ����, ����� �����ϰ� ������ �����ϰ� �����ϱ� �پ��� ����� ����ϰ� �ֽ��ϴ�. ������ ����� ���� �ӵ��� ����ȭ�ǰ� �ִ� ��� ���δ� ������ ������ ���� ���ڸ� ��Ը�� �����ϰ� ������ �̿� ���� ������ ����� ���ڸ� ���䰡 �����ϰ� �ֽ��ϴ�. ������ ������ ��� ������ Ȯ�밡 ������ �����η¿� ���� �������� ���並 �����ϰ� ����� ���� ����ڰ��� ������ �м���� ������ �����ϰ� �Ǿ����ϴ�.

����н� ������ �м���� ���輭�� ���������� ��Ȯ�ϰ� �ݿ��ϰ� �ٽɹ����� �߽����� �ؼ��� ���ϰ� �����Ͽ� �������� �м�, ��ȹ, Ž��, �𵨸�, ����ؼ� ���ݿ� �̸��� ������ �������� ���� �����н����� �ܽð� �ѹ��� �հ��� �� �ֵ��� ������ �Ͽ����ϴ�. �������� ���忡�� ���������� �ٽɳ����� �����Ͽ� ������ �м���� �н��� �����ϴ� ������� ����Ǯ�̸� ������� ��Ȯ�� �н������� ������ �� ������ ������ �м���� �̷��� �����ϰ� ������ �н��� �ϴ� ������� ���� ������ ���� �հݼ��� �ö� �� �ֵ��� �Ƿ¾缺�� ������ �ξ����ϴ�.

@ 모든 회원분들께

외식경영학사 올해 졸업하고 상반기 동안 뭘 해야될지 몰라 뭐라도 하자 싶어서 국비로 컴활2급, 전산회계1급, 전산세무 2급 취득했습니다.
학교에서 교필로 R기반 빅데이터 수업을 들었을때 전공자도 아닌데 왜 이게 교필이냐면서 화났는데 하다보니 너무 재밌어서 밤새서 과제해가고 에이플도 받았었습니다.
사실 더 배워보고 싶은 의지랑 욕망이 넘쳤지만 비전공자라는거 하나 때문에 망설이다가 나중에 후회하기 싫어서 뒤늦게 프로젝트해서 포트폴리오 만들어준다는 전문IT학원에서 파이썬, 빅데이터분석 배우고 있고 멘토 선생님이 블로그 만들어놔라 해서 블로그도 하고 있습니다.
개인적으로 자격증은 정보처리기사, ADsP, 빅데이터분석기사 공부하고 있습니다!
이정도 가지고 취업이 되긴 할까요..?
취업하고 석사과정까지 밟아야 승진, 연봉에도 좋겠죠?

머신러닝의 모델을 구축하는 것만큼이나 중요한 작업이 바로 모델 평가작업이다. 모델 별로 평가하는 방법도 여러가지가 존재하는데, 오늘은 분류 모델 평가방법 중의 기본이 되는, 정밀도와

jennainsight.tistory.com


3) 신뢰도, 지지도 계산방법
쇼핑리스트에서 A항목을 구매할 때 B항목 구매가 어떤식으로 연결되는지에 대해서 신뢰도와 지지도를 실제로 계산하는 문제가 등장했다. 복잡한 계산은 아니라서 어렵지는 않았다고 생각한다. 대신 용어가 조금 헷갈리기 때문에, 확실하게 알고 넘어가는게 좋을 것 같다. 향상도도 계산방법 함께 알아두면 도움이 될 듯하다.

4) 전수조사 대상찾기
통계분석 사례들이 보기로 나왔고, 어떤 것이 전수조사 대상에 해당하는지 고르는 문제가 등장했다.

5) 데이터웨어하우스의 특징
데이터웨어하우스의 특징이 아닌 것을 고르라는 문제가 출제되었다. 데이터웨어하우스의 특징을 따로 외운 것은 아니지만, 상식으로 풀 수 있는 수준이었다. 나중에 백과사전을 검색해보니 공식적인 특징이 나타난 것이 있었다. 주제지향적, 시간의 흐름에 따라 변화하는 특징, 비소멸성, 통합성이었다.

6) Auc 문제
Auc 면적이 어떤 의미인지, Roc곡선이 어떤 형태일 때 모델 성능이 좋은 것인지 나쁜 것인지, 다소 쉽게 출제된 문제였다고 본다.

F1 Score, Roc곡선, Auc 계산방법 / scikit-learn 코드로 구현하기

정밀도와 재현율을 구했다면, 이번엔 F1 Score, ROC, AUC를 구해볼 차례이다. 역시나 어려운 개념은 아니므로, 단어에 기죽지 말자. [↓↓정밀도와 재현율 개념 학습이 필요하신 분들↓↓] 정밀도(prec

jennainsight.tistory.com


7) 중심극한정리에 관한 문제
중심극한정리에 대한 설명 중 틀린 것을 고르는 문제가 출제됐다.

8) 딥러닝 관련문제
Relu함수가 기울기 소실문제를 해소해준다는 보기가 있던 문제가 있었고, 분석할 대상을 보기에 여러 개 작성한 뒤 각각 분석에 맞는 딥러닝 알고리즘을 고르라는 문제도 있었다. 예를 들어서 이런 경우에는 RNN, CNN 중에 무엇이 맞을지 연결하는 형태이다. 시그모이드 함수에 대한 문제도 있었고, 경사하강법에 관련된 것이 아닌 것을 고르는 문제도 있었다. 생각보다 딥러닝 부분에 대한 문제 비중이 높았다고 보여지는데, 간단하긴 했지만 계산하는 문제도 있었다. 딥러닝 쪽으로 이해도가 높지 않아서 난이도가 느껴지긴 했다.

9) 데이터과학자의 업무영역 (기존의 전문가와 다른 부분)
상당히 쉽게 넘어갈 줄 알고, 대충봤던 부분인데 은근 객관식 보기가 헷갈렸다.

10) ETL 개념을 묻는 문제
데이터에듀 교재에서 ETL 관련내용을 여러페이지로 다루고 내용도 꽤 있어서, 어느 정도 공들여서 공부한 부분이었는데 비교적 간단하게 출제됐다.

11) 박스콕스
박스콕스는 처음 들어봤는데, 관련해서 2문제나 등장했다. 내용은 몰랐지만 문맥을 보고 대략 끼워맞추기는 가능했다.

12) 왜도 그래프
왜도 그래프를 보여주고, 왜도의 크기가 양성인지 음성인지, 최빈값/평균/중앙값의 크기가 어떤지를 고르는 문제였다. 교재에서 풀어봤던 문제라서 쉽게 통과했다, yey~~

13) 카토그램
공간데이터 시각화 부분에서 카토그램 부분 문제내기 좋겠다는 생각이 들었는데, 간단하게 출제됐다. 카토그램에 대한 설명이 문제로 나오고 보기 중에서 어떤 것인지 고르는 문제였다.

14) 데이터 분석 순서
이런 문제가 은근 헷갈린다. 확실히 보고가는 걸 추천한다. 말 되는걸로 고르다보면 놓치는 부분이 있다. 유사하게 분석 순서에 관련해서 묻는 문제가 1~2개 등장했다.

15) 앙상블 기법
보팅, 배깅, 부스팅, 랜덤포레스트 중 하나를 고르는 문제었다.

16) 상관계수
상관계수 수치 범위, -1이 갖는 의미 등에 대한 내용이었다. 혹시 이 문제 답 2개라고 생각하시는 분..

17) 관계시각화 문제
2문제가 연달아 출제되었는데, 한 문제를 보고 다른 문제의 답을 유추할 수 있는? 형태였던 것 같다. 다변량 데이터에서 연관성을 찾아내는 것이 어떤 것인지에 대한 내용이었던 듯하다.

18) 비모수 통계기법의 특징
비모수 통계기법으로 분석했을 경우에 모수추정이 가능한지에 대한 문제었던 것으로 기억한다.

19) 데이터 정제의 개념
데이터 정제 단계에서는 어떤 작업을 하는 것인지 옳은 것을 고르는 문제었다.

20) 평균 관련한 문제
산술평균, 기하평균, 조화평균의 개념에 대해서 묻는 문제가 1문제 출제됐다. 다행히 이 것도 포스팅으로 작성했던 부분이라서 확실히 이해하고 있었고 쉽게 오답을 골라낼 수 있었다. 아래 내용만 봐도 충분하니, 필요하신 분들은 아래링크로 접속하여 확인 바란다.

1/n이 평균의 전부가 아니다, 산술평균+기하평균+조화평균의 공식과 예시

보통 우리가 아는 평균은 1/n이다. 6개월 동안 12권의 책을 읽었다면, 우리는 한 달에 평균 2권의 책을 읽었다는 결론에 쉽게 다다른다. 이게 우리가 알던 '산술평균'이었다. 일상에서 너무나 쉽게

- 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행한다.

(4) 검정과목

- (필기) 빅데이터 분석 기획, 빅데이터 탐색, 빅데이터 모델링, 빅데이터 결과해석 등 4개 과목
- (실기) 빅데이터 분석 실무

(5) 합격기준

- (필기) 100점을 만점으로 하여 과목당 40점 이상, 전 과목 평균 60점 이상
- (실기) 100점을 만점으로 하여 평균 60점 이상

(6) 응시수수료

- (필기) 17,800원
- (실기) 40,800원

5. 시험정보[편집]

(1) 응시자격 (국가기술자격법 시행령 별표4의2)

다음 중 하나에 해당하는 사람
1. 대학졸업자등 또는 졸업예정자 (전공 무관)
2. 기사 등급 이상의 자격을 취득한 사람 (종목 무관)
3. 3년제 전문대학 졸업자등으로서 졸업 후 1년 이상 직장경력이 있는 사람 (전공, 직무분야 무관)
4. 2년제 전문대학 졸업자등으로서 졸업 후 2년 이상 직장경력이 있는 사람 (전공, 직무분야 무관)
5. 기사 수준 기술훈련과정 이수자 또는 그 이수예정자 (종목 무관)
6. 산업기사 수준 기술훈련과정 이수자로서 이수 후 2년 이상 직장경력이 있는 사람 (종목, 직무분야 무관)
7. 4년 이상 직장경력이 있는 사람 (직무분야 무관)

※ 졸업증명서 및 경력증명서 제출 필요



비고

  1. 대학 및 대학원 수료자로서 학위를 취득하지 못한 사람은 "대학졸업자등", 전 과정의 2분의 1 이상을 마친 사람은 "2년제 전문대학졸업자등"
    2. "졸업예정자"란 필기시험일 기준으로 최종 학년에 재학 중인 사람
    3. 최종 학년이 아닌 경우, 106학점 이상 인정받은 사람은 “대학졸업예정자”, 81학점 이상을 인정받은 사람은 “3년제 대학졸업예정자”, 41학점 이상을 인정받은 사람은 “2년제 대학졸업예정자”

    (이때 대학 재학으로 취득한 학점 이외의 자격증 취득 등 기타의 방식으로 18학점 이상 포함 필수)

    4. 전공심화과정의 학사학위를 취득한 사람은 “대학졸업자”, 그 졸업예정자는 “대학졸업예정자”
    5. "이수자"란 기사 수준 기술훈련과정 또는 산업기사 수준 기술훈련과정을 마친 사람
    6. "이수예정자"란 국가기술자격 검정의 필기시험일 또는 최초 시험일 현재 기사 수준 기술훈련과정 또는 산업기사 수준 기술훈련과정에서 각 과정의 2분의 1을 초과하여 교육훈련을 받고 있는 사람



(2) 시험과목 및 검정방법

필기
직무분야: 정보통신
중직무분야: 정보기술
자격종목: 빅데이터분석기사
적용기간: 4년(2020.1.1.~2023.12.31.)
직무내용: 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업무를 수행한다.
필기검정방법: 객관식
문제수: 80
시험시간: 120분


(3) 합격기준

- 필기: 100점을 만점으로 하여 과목당 40점 이상, 전 과목 평균 60점 이상
- 실기: 100점을 만점으로 하여 평균 60점 이상


(4) 필기시험 면제

- 필기시험에 합격한 자에 대하여는 필기시험 합격자 발표일로부터 2년간 필기시험을 면제한다

6. 필기[편집]

2020년 12월 19일 첫 시험을 앞두고 각종 출판사에서 시행 일정에 맞게 다양한 참고서들을 출간했다. [2]
파트별로 난이도가 상이하므로 전략적으로 대비하면 좋다.
참고로 1과목 빅데이터 분석기획, 2과목 빅데이터 탐색은 난이도 중이며 3과목 빅데이터 모델링은 난이도 상이다. 마지막 4과목 빅데이터 결과 해석은 난이도 하이다.

40점 미만을 맞은 과목이 한 개도 없으면서 전 과목 평균 60점 이상 맞으면 합격이다.

문제는 공개하지 않으며, 시험장에서 100% 회수해간다. 현행 기사 제도에서는 유일한 필기 비공개 시험이다. [3][4]

최초 시행된 2021년 제2회 필기시험에서는 예상보다 통계 관련 문제가 많이 나와 수험생들을 멘붕에 빠트렸다. 합격률이 한 자릿수가 아니냐는 의견도 나왔으나 필기 합격률은 40퍼센트대로 꽤 높은편이다.원래 잘본 사람들은 왈가왈부 하지 않음

6.1. 빅데이터분석기획[편집]

문제수: 20
주요항목
1. 빅데이터의 이해

① 빅데이터 개요 및 활용

- 빅데이터의 특징
- 빅데이터의 가치
- 데이터 산업의 이해
- 빅데이터 조직 및 인력

② 빅데이터 기술 및 제도

- 빅데이터 플랫폼
- 빅데이터와 인공지능
- 개인정보 법·제도
- 개인정보 활용

2. 데이터 분석 계획

① 분석 방안 수립

- 분석 로드맵 설정
- 분석 문제 정의
- 데이터 분석 방안

② 분석 작업 계획

- 데이터 확보 계획
- 분석 절차 및 작업 계획

3. 데이터 수집 및 저장 계획

① 데이터 수집 및 전환

- 데이터 수집
- 데이터 유형 및 속성 파악
- 데이터 변환
- 데이터 비식별화
- 데이터 품질 검증

② 데이터 적재 및 저장

- 데이터 적재
- 데이터 저장

6.2. 빅데이터 탐색[편집]

문제수: 20
주요항목
1. 데이터 전처리

① 데이터 정제

- 데이터 정제
- 데이터 결측값 처리
- 데이터 이상값 처리

② 분석 변수 처리

- 변수 선택
- 차원축소
- 파생변수 생성
- 변수 변환
- 불균형 데이터 처리

2. 데이터 탐색

① 데이터 탐색 기초

- 데이터 탐색 개요
- 상관관계 분석
- 기초통계량 추출 및 이해
- 시각적 데이터 탐색

② 고급 데이터 탐색

- 시공간 데이터 탐색
- 다변량 데이터 탐색
- 비정형 데이터 탐색

3. 통계기법 이해

① 기술통계

- 데이터요약
- 표본추출
- 확률분포
- 표본분포

② 추론통계

- 점추정
- 구간추정
- 가설검정

6.3. 빅데이터 모델링[편집]

문제수: 20
주요항목
1. 분석모형 설계

① 분석절차 수립

- 분석모형 선정
- 분석모형 정의
- 분석모형 구축 절차

② 분석 환경 구축

- 분석 도구 선정
- 데이터 분할

2. 분석기법 적용

① 분석기법

- 회귀분석
- 로지스틱 회귀분석
- 의사결정나무
- 인공신경망
- 서포트벡터머신
- 연관성분석
- 군집분석

② 고급 분석기법

- 범주형 자료 분석
- 다변량 분석
- 시계열 분석
- 베이지안 기법
- 딥러닝 분석
- 비정형 데이터 분석
- 앙상블 분석
- 비모수 통계시공간 데이터 탐색

6.4. 빅데이터 결과 해석[편집]

문제수: 20
주요항목
1. 분석모형 평가 및 개선

① 분석모형 평가

- 평가 지표
- 분석모형 진단
- 교차 검증
- 모수 유의성 검정
- 적합도 검정

② 분석모형 개선

- 과대적합 방지
- 매개변수 최적화
- 분석모형 융합
- 최종모형 선정

2. 분석결과 해석 및 활용

① 분석결과 해석

- 분석모형 해석
- 비즈니스 기여도 평가

② 분석결과 시각화

- 시공간 시각화
- 관계 시각화
- 비교 시각화
- 인포그래픽

③ 분석결과 활용

- 분석모형 전개
- 분석결과 활용 시나리오 개발
- 분석결과 보고서 작성
- 분석모형 모니터링
- 분석모형 리모델링범주형 자료 분석

7. 실기[편집]

실기프로그램은 R(프로그래밍 언어) 또는 Python 중에서 수험자가 직접 선택하여 응시 가능하다. 시험시간은 180분.

주관식 10문제(각 3점씩) 와 데이터 전처리 능력을 보는 작업형1 3문제(각 10점씩), rawdata에서 전처리를 거쳐 예측 모델링을 수행하는 작업형2 1문제(40점)가 출제된다.

총점 60점을 넘으면 합격한다.

ㅇ 제공환경: 클라우드 기반 코딩 플랫폼

※ 코딩 플랫폼 예시(가나다순)
- 구름devth(https://devth.goorm.io/)
- 온코더(https://www.oncoder.com/ground/r1KQacTxQ)
- 프로그래머스(https://programmers.co.kr/learn/challenges)

데이터산업진흥원에서 단답형과 작업형 문제에 대한 문제유형 및 응시환경을 공지했다. 예시문제

7.1. 빅데이터 분석실무[편집]

주요항목
1. 데이터 수집 작업
2. 데이터 전처리 작업
3. 데이터 모형 구축 작업
4. 데이터 모형 평가 작업

8. 문제점[편집]


실기 작업형2 1문제 같은 경우 40점으로 당락에 많은 영향을 끼치는데 많은 응시생들이 0점처리되는 문제가 있다.

9. 기타[편집]

종목 개발 연구에 따르면 ADsP와 ADP 사이의 수준이다.

1회 필기 시험 접수 시작일인 2020년 11월 23일에 사이트가 먹통이 되어 아무도 접수하지 못하고 일정이 늦춰졌다. 뉴스기사그리고 응대

11월 말부터 코로나 확산세가 심해져서 12월 19일에 예정이었던 제 1회 시험은 2021년 2회차 시험으로 미뤄졌다.

나흘 앞두고 갑작스러운 취소 통보가 논란이 되었으며, 주관기관의 무능함을 고발하는 청와대 국민청원이 올라오기도 하였다. 뉴스기사국민청원

첫 시험은 여러모로 문제가 많은 시험으로 평가된다. 빅데이터분석기사이지만 사실상 통계학 위주로 출제되어 통계분석기사가 아니냐는 말이 돌 정도로 편향된 출제경향을 보였으며, 오탈자가 난무하는 것은 기본이고 심지어 두 문제는 주관기관에서 복수정답으로 인정하는 사태까지 벌어졌다. 진흥원 공지

무능원이라는 말이 돌 정도로 여러 가지 측면에서 주관기관 대응이 미흡한 점이 눈에 띄며, 빅분기 역시 큐넷으로 이관하는 것이 좋겠다는 의견이 수험생들 사이에서 전반적으로 돌고 있다.

2020년에 정보처리기사가 개정되어 난이도가 올라가자 정보처리기사를 징검다리 삼아 다른 기사 응시자격을 갖추려던 비전공자들이 전자계산기조직응용기사나 빅데이터분석기사를 대신 보겠다고 하기도 했다. 하지만 빅데이터 분야가 상당한 통계학 지식을 요구하는지라 비전공자가 접근하기엔 어려울 것으로 보인다.

실기시험 합격자 발표가 나면서 제2유형의 경우, 점수가 엇갈리고 있다. 만점(40점)과 0점이라는 극단적인 분포로 갈라져 있으며, 파이썬으로 코드를 제출한 경우가 만점이 많고 R로 코드를 제출한 경우가 0점이 많은 것으로 나타난다. 주관기관의 일처리 특성상 향후 조치에 따른 채점결과의 변화가 나타날 가능성이 있어 보인다. 긴급공지

커뮤니티에 따르면, 합격에서 불합격으로 번복 통보를 받았다는 사례가 잇따라 발생하고 있다. 점수 구간의 문제가 아니라 아예 채점 자체가 잘못된 것으로 밝혀져 주최 측의 무능함이 제대로 드러나고 있다. 뉴스기사사례1사례2

진흥원 측에서는 전수조사를 실시한 결과를 수험자 개별로 문자를 발송하여 변동 여부를 통보하였으며, 사전사후 검사결과를 비교할 수 있도록 공개할 것임을 공지하였고 실기 재검토 결과를 안내하였다. 관련공지1 관련공지2

점수 변동으로 인해 합격/불합격이 변화된 경우가 상당수 있는 것으로 보이며, 진흥원에 직접 방문하여 코드 확인을 한 사례가 존재한다. 방문 후기 이 글에서처럼 코드 실행 시간의 1분 준수 여부가 매우 큰 제약점으로 작용하였으며, 향후 시험을 준비하는 수험생들이 반드시 염두에 두어야 할 사항이다.

10. 둘러보기[편집]

🏬 사회과학 조사·연구 방법론 둘러보기

[ 펼치기 · 접기 ]

📝 서론

사회과학 · 과학적 방법 · 사회조사 · 연구 · 가설 · 이론(이론적 조망) · 연구윤리

🔍 조사방법론 I

변인 · 정의 · 상관관계와 인과관계 · 실험(실험설계 · 통제 · 통제집단과 실험집단) · 사례연구

자료 · 자료수집(면접법 · 초점집단면접법 · 질문지법 · 관찰법) · 코딩

📈 조사방법론 II

표본조사 · 지표 · 측정 · 신뢰도와 타당도 · 지수 · 척도

📊 사회통계

통계적 방법 · 기술통계학 · 확률 및 분포 · 추론통계학 · SPSS · 분석기법(분산분석 · 회귀분석)

👔 공인 자격증

사회조사분석사 · 빅데이터분석기사 · 국가공인 데이터분석 전문가

📂 메타 문서

연구방법론 관련 정보

상기 문서들은 한국통계진흥원 및 한국산업인력공단의 출제범위에 의거하여 엄격히 망라되어 있으며, 동 기관의 과목별 구분·명명에 의거하여 조사방법론은 2파트로 구분됨


[1] ADP, ADsP, SQLP, SQLD 등의 데이터 관련 자격증 시험을 주관[2] 건기원 2021 수제비 빅데이터 분석기사 필기, 2021 이기적 빅데이터 분석기사 필기, 성안당 2021 최적합 빅데이터분석기사 필기 등이 있다. 이 중 시대고시 2020 빅데이터분석기사 필기 한권으로 끝내기가 848쪽으로 분량이 가장 높은 편에 속한다.