자격증/ADsP

[ADsP] 1과목 - 2장

브디크리 2023. 7. 21. 14:56

서론


Part 1, 2장 정리


1. 빅데이터의 이해


3V + 4V


3V

  • 데이터의 양 (Volume)
    데이터의 규모 측면

  • 데이터의 다양성 (Variety)
    데이터의 유형과 소스 측면
     
  • 데이터의 속도 (Velocity) 
    데이터의 수집과 처리 속도 측면

+ 4V

  • 가치 (Value)
  • 진실성 (Veracity)
  • 정확성 (Validity)
  • 휘발성 (Volatility)

빅데이터 정의의 범주 및 효과


데이터 변화 -> 기술 변화 -> 인재, 조직 변화로 빅데이터 범주가 점점 확대된다.

  • 데이터 변화
    규모, 형태, 속도 (3V)

  • 기술 변화
    1. 데이터 처리, 저장, 분석 기술 및 아키텍쳐
    2. 클라우드 컴퓨팅 활용

  • 인재, 조직 변화
    1. Data Scientist 같은 새로운 인재 필요
    2. 데이터 중심 조직

빅데이터에 거는 기대를 표현한 비유


  • 산업혁명의 석탄, 철
    제조업 뿐만 아니라 서비스 분야의 생산성을 회기적으로 끌어올려 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져올 것으로 기대됨.

  • 21세기의 원유
    경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상 시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망됨.

  • 렌즈
    렌즈를 통해 현미경이 생물학에 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대됨.

  • 플랫폼
    공동 활용의 목적으로 구축된 유무형의 구조물로써의 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망됨

빅데이터가 만들어내는 본질적인 변화


  • 사전처리 -> 사후처리
    필요한 정보만 수집 -> 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보 찾기

  • 표본조사 -> 전수조사
    표본을 조사하는 지식발견 방식 -> 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식

  • 질 -> 양
    양질의 정보 > 오류 정보로 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 둔 변화

  • 인과관계 -> 상관관계
    상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 늘어남

2. 빅데이터의 가치와 영향


빅데이터의 가치 산정이 어려운 이유


  • 데이터 활용 방식
    재사용이나 재조합, 다목적용 데이터 개발 등이 일반화 되면서,
    특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없게 되었다.

  • 새로운 가치 창출
    데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려워졌다.

  • 분석 기술 발전
    현재는 가치가 없는 데이터도, 추후에 새로운 분석 기법이 등장하면 거대한 가치를 지닌 데이터가 될 수 있다.

빅데이터가 미치는 영향


  • 기업
    혁신, 경쟁력제고, 생산성 향상

  • 정부
    환경 탐색, 상황분석, 미래대응

  • 개인
    목적에 따른 활용

빅데이터를 활용한 기본 테크닉


테크닉 내용 예시
연관규칙학습 변인들 간에 상관관계가 있는지 찾아내는 방법 커피를 구매하는 사람이
탄산음료를 더 많이 사는가?
유형분석 문서를 분류하거나 조직을 그룹으로 나눌 때,
또는 온라인 수강생들을 특성에 따라 분류할 때 사용
이 사용자는 어떤 특성을
가진 집단에 속하는가?
유전자 알고리즘 최적화가 필요한 문제의 해결책을 자연선택,
돌연변이 등과 같은 메커니즘을 통해 점진적으로
진화시켜나가는 방법
최대 시청률을 얻으려면 어떤
프로그램을 시간대에 방송해야 하는가?
기계학습 훈련 데이터로부터 학습한 알려진 특성을
활용해 예측하는 방법
기존의 시청기록을 바탕으로 시청자가
현재 보유한 영화 중에서
어떤 것을 가장 보고싶어 할까?
회귀분석 독립변수를 조작함에 따라, 종속 변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 구매자의 나이가 구매 차량의 타입에
어떤 영향을 미치는가?
감정분석 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 새로운 환불 정책에 대한
고객의 평가는 어떤가?
소녈네트워크분석
(=사회관계망분석)
특정인과 다른 사람이 몇 촌 정도의 관계인가를
파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용
고객들 간 관계망은 어떻게 구성되어 있나

3. 위기 요인과 통제 방안


위기 요인


  • 사생활 침해
    개인 정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회 . 경제적 위협으로 변형될 수 있음

  • 책임 원칙 훼손
    빅데이터 기본분석과 예측 기술이 발전하면서 정확도가 증가한 만큼 . 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성 증가, 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻기 때문에 이에 따른 원리를 훼손할 가능성 존재

  • 데이터 오용
    빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 높은 정확도를 가지나. 항상 맞을 수는 없음


해결 방안


  • 동의에서 책임으로
    사생활 침해 문제 해결을 위해 개인정보 제공자의 동의 → 개인정보 사용자의 책임

  • 결과 기반 책임 원칙 고수
    책임원칙 훼손 위기 요인에 대한 통제 방안 . 기존의 원칙을 보강 & 강화 필요하고,
    예측 자료에 의한 불이익을 당할 가능성 최소화하는 장치 마련이 필요하다.

  • 알고리즘 접근 허용
    데이터 오용의 위기 요소에 대한 대응책으로 알고리즘에 대한 접근권을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다.

빅데이터 활용의 3요소


  1. 데이터 : 모든 것의 데이터 화
  2. 기술 : 진화하는 알고리즘, 인공지능
  3. 인력 : 데이터 사이언티스트, 알고리즈미스트

결론


암기할게 넘모 많다...