자격증/ADsP
[ADsP] 1과목 - 2장
브디크리
2023. 7. 21. 14:56
서론
Part 1, 2장 정리
1. 빅데이터의 이해
3V + 4V
3V
- 데이터의 양 (Volume)
데이터의 규모 측면 - 데이터의 다양성 (Variety)
데이터의 유형과 소스 측면
- 데이터의 속도 (Velocity)
데이터의 수집과 처리 속도 측면
+ 4V
- 가치 (Value)
- 진실성 (Veracity)
- 정확성 (Validity)
- 휘발성 (Volatility)
빅데이터 정의의 범주 및 효과
데이터 변화 -> 기술 변화 -> 인재, 조직 변화로 빅데이터 범주가 점점 확대된다.
- 데이터 변화
규모, 형태, 속도 (3V) - 기술 변화
1. 데이터 처리, 저장, 분석 기술 및 아키텍쳐
2. 클라우드 컴퓨팅 활용 - 인재, 조직 변화
1. Data Scientist 같은 새로운 인재 필요
2. 데이터 중심 조직
빅데이터에 거는 기대를 표현한 비유
- 산업혁명의 석탄, 철
제조업 뿐만 아니라 서비스 분야의 생산성을 회기적으로 끌어올려 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져올 것으로 기대됨. - 21세기의 원유
경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상 시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망됨. - 렌즈
렌즈를 통해 현미경이 생물학에 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대됨. - 플랫폼
공동 활용의 목적으로 구축된 유무형의 구조물로써의 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망됨
빅데이터가 만들어내는 본질적인 변화
- 사전처리 -> 사후처리
필요한 정보만 수집 -> 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보 찾기 - 표본조사 -> 전수조사
표본을 조사하는 지식발견 방식 -> 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식 - 질 -> 양
양질의 정보 > 오류 정보로 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 둔 변화 - 인과관계 -> 상관관계
상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 늘어남
2. 빅데이터의 가치와 영향
빅데이터의 가치 산정이 어려운 이유
- 데이터 활용 방식
재사용이나 재조합, 다목적용 데이터 개발 등이 일반화 되면서,
특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없게 되었다. - 새로운 가치 창출
데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려워졌다. - 분석 기술 발전
현재는 가치가 없는 데이터도, 추후에 새로운 분석 기법이 등장하면 거대한 가치를 지닌 데이터가 될 수 있다.
빅데이터가 미치는 영향
- 기업
혁신, 경쟁력제고, 생산성 향상 - 정부
환경 탐색, 상황분석, 미래대응 - 개인
목적에 따른 활용
빅데이터를 활용한 기본 테크닉
테크닉 | 내용 | 예시 |
연관규칙학습 | 변인들 간에 상관관계가 있는지 찾아내는 방법 | 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? |
유형분석 | 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 |
이 사용자는 어떤 특성을 가진 집단에 속하는가? |
유전자 알고리즘 | 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜나가는 방법 |
최대 시청률을 얻으려면 어떤 프로그램을 시간대에 방송해야 하는가? |
기계학습 | 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법 |
기존의 시청기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고싶어 할까? |
회귀분석 | 독립변수를 조작함에 따라, 종속 변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 | 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? |
감정분석 | 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 | 새로운 환불 정책에 대한 고객의 평가는 어떤가? |
소녈네트워크분석 (=사회관계망분석) |
특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용 |
고객들 간 관계망은 어떻게 구성되어 있나 |
3. 위기 요인과 통제 방안
위기 요인
- 사생활 침해
개인 정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회 . 경제적 위협으로 변형될 수 있음 - 책임 원칙 훼손
빅데이터 기본분석과 예측 기술이 발전하면서 정확도가 증가한 만큼 . 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성 증가, 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻기 때문에 이에 따른 원리를 훼손할 가능성 존재 - 데이터 오용
빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 높은 정확도를 가지나. 항상 맞을 수는 없음
해결 방안
- 동의에서 책임으로
사생활 침해 문제 해결을 위해 개인정보 제공자의 동의 → 개인정보 사용자의 책임 - 결과 기반 책임 원칙 고수
책임원칙 훼손 위기 요인에 대한 통제 방안 . 기존의 원칙을 보강 & 강화 필요하고,
예측 자료에 의한 불이익을 당할 가능성 최소화하는 장치 마련이 필요하다. - 알고리즘 접근 허용
데이터 오용의 위기 요소에 대한 대응책으로 알고리즘에 대한 접근권을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다.
빅데이터 활용의 3요소
- 데이터 : 모든 것의 데이터 화
- 기술 : 진화하는 알고리즘, 인공지능
- 인력 : 데이터 사이언티스트, 알고리즈미스트
결론
암기할게 넘모 많다...