데이터분석준전문가(ADsP)
-
목차 1. 데이터 마이닝의 정의 1. 대량의 데이터 집합으로부터 유용한 정보(Knowleage)를 추출하는 것 2. 의미있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정 3. 통계 및 수학적 기술 뿐만 아니라 패턴 인식 기술들을 이용하여 데이터 저장소에 저장된 * 대용량의 데이터를 조사함으로써 의미있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정 *대용량데이터: 이 때 대용량 데이터를 저정한 장소는 데이터 웨어하우스이다. 데이터 베이스는 현재 운영하고 있는 시스템임 착각 노노 적용된 예시 사례 1. 구매 패턴의 발견 추천지수 A라는 책을 산 사람이 B라는 책을 샀고 이런 데이터를 모아서 사례분석기반이라는 방법, 연관성 분석 (Assoc..
[정형데이터 마이닝 ] 데이터 마이닝목차 1. 데이터 마이닝의 정의 1. 대량의 데이터 집합으로부터 유용한 정보(Knowleage)를 추출하는 것 2. 의미있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정 3. 통계 및 수학적 기술 뿐만 아니라 패턴 인식 기술들을 이용하여 데이터 저장소에 저장된 * 대용량의 데이터를 조사함으로써 의미있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정 *대용량데이터: 이 때 대용량 데이터를 저정한 장소는 데이터 웨어하우스이다. 데이터 베이스는 현재 운영하고 있는 시스템임 착각 노노 적용된 예시 사례 1. 구매 패턴의 발견 추천지수 A라는 책을 산 사람이 B라는 책을 샀고 이런 데이터를 모아서 사례분석기반이라는 방법, 연관성 분석 (Assoc..
2021.08.21 -
목차 차원축소 목표를 위해 개발된 분석 방법 변수 간의 관계를 이해하는 것이 합리적으로 가능하지 않을 정도로 변수가 많은 경우 이것을 차원 축소를 한다. 이름에서 추측 가능하듯이 데이터 집합 내의 특징 수를 줄이기 위해 다양한 기법을 사용하는 것이다. 1. 주성분분석** 2. 요인분석(Factor Analysis) 3. 판별분석(Discriminant Analysis) 4. 군집분석(Cluster Analysis) 5. 정준상관분석(Canonical Correlation analysis) 6. 다차원척도법(Multi-dimensional scaling) 차원축소를 위해 개발된 6가지 중에 주성분 분석에 대해서 알아본다. 주성분 분석 (PCA, Pricipal Component Analysis) - 데이터..
[통계분석] 주성분분석목차 차원축소 목표를 위해 개발된 분석 방법 변수 간의 관계를 이해하는 것이 합리적으로 가능하지 않을 정도로 변수가 많은 경우 이것을 차원 축소를 한다. 이름에서 추측 가능하듯이 데이터 집합 내의 특징 수를 줄이기 위해 다양한 기법을 사용하는 것이다. 1. 주성분분석** 2. 요인분석(Factor Analysis) 3. 판별분석(Discriminant Analysis) 4. 군집분석(Cluster Analysis) 5. 정준상관분석(Canonical Correlation analysis) 6. 다차원척도법(Multi-dimensional scaling) 차원축소를 위해 개발된 6가지 중에 주성분 분석에 대해서 알아본다. 주성분 분석 (PCA, Pricipal Component Analysis) - 데이터..
2021.08.14 -
목차 01 다차원 척도법(Multidimensional Scaling) -객체간 근접성(Prximity)을 시각화하는 통계기법 MDS라고 줄여 부름. -군집분석과 같이 개체들을 대상으로 변수들을 측정한 후에 개체들 사이의 유사성/ 비유사성을 측정하여 개체들을 2차원 공간상에 점으로 표현하는 분석방법 (쉽게 비슷한 개체들끼리 모아서 2차원 그래프로 표현해주는것) -개체들을 2차원 또는 3차원 공간상에 점으로 표현하는 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법 -입력데이터는 케이스 간의 유사도(similarity)를 측정한 거리 데이터이며, 출력 결과는 케이스들이 기하학적 공간상에 배치된 그래프 - 기하학적 공간상에 배치된 케이스 간의 거리는 유사도의 크기를 나타냄(즉 유사한 케이스들은 서로 가까..
[통계분석] 다차원척도법목차 01 다차원 척도법(Multidimensional Scaling) -객체간 근접성(Prximity)을 시각화하는 통계기법 MDS라고 줄여 부름. -군집분석과 같이 개체들을 대상으로 변수들을 측정한 후에 개체들 사이의 유사성/ 비유사성을 측정하여 개체들을 2차원 공간상에 점으로 표현하는 분석방법 (쉽게 비슷한 개체들끼리 모아서 2차원 그래프로 표현해주는것) -개체들을 2차원 또는 3차원 공간상에 점으로 표현하는 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법 -입력데이터는 케이스 간의 유사도(similarity)를 측정한 거리 데이터이며, 출력 결과는 케이스들이 기하학적 공간상에 배치된 그래프 - 기하학적 공간상에 배치된 케이스 간의 거리는 유사도의 크기를 나타냄(즉 유사한 케이스들은 서로 가까..
2021.08.14 -
목차 1) 여러개의 분류 모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법 2) 적절한 표본추출법으로 데이터에서 여러 개의 훈련용 데이터를 집합을 만들어 각 데이터 집합에 하나의 분류기를 만들어 결합하는 방법 3) 약하게 학습 된 여러 모델들을 결합하여 사용 (약하다는 것은 데이터셋이 있었을때 여러개로 나누어서 사용하기 때문에 데이터의 양이 적다) 4) 성능을 분산시키기 때문에 과적합(overfitting)감소효과가 있음 앙상블 모형(Ensemble) 의 종류 보팅(Voting) - 서로 다른 여러개 알고리즘 분류기 사용 - 각 모델의 결과를 취합하여 많은 결과 또는 높은 확률로 나올 거을 최종 결과로 채택하는 것 Hard voting 각 모델의 예측 결과 중 많은 것을 선택 1예측 3표, 2예측..
[정형데이터마이닝] 앙상블 분석목차 1) 여러개의 분류 모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법 2) 적절한 표본추출법으로 데이터에서 여러 개의 훈련용 데이터를 집합을 만들어 각 데이터 집합에 하나의 분류기를 만들어 결합하는 방법 3) 약하게 학습 된 여러 모델들을 결합하여 사용 (약하다는 것은 데이터셋이 있었을때 여러개로 나누어서 사용하기 때문에 데이터의 양이 적다) 4) 성능을 분산시키기 때문에 과적합(overfitting)감소효과가 있음 앙상블 모형(Ensemble) 의 종류 보팅(Voting) - 서로 다른 여러개 알고리즘 분류기 사용 - 각 모델의 결과를 취합하여 많은 결과 또는 높은 확률로 나올 거을 최종 결과로 채택하는 것 Hard voting 각 모델의 예측 결과 중 많은 것을 선택 1예측 3표, 2예측..
2021.08.14 -
목차 01 시계열 자료 ∙시간의 흐름에 따라 관측된 데이터 ∙시계열 분석을 위해서는 정상성을 만족해야 함 02 정상성 ∙시계열의 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것 ∙미래는 확률적으로 과거와 동일하다는 것. 정상 시계열의 조건 ∙평균은 모든 시점 (시간t) 에 대해 일정하다. (\ ∙분산은 모든 시점(시간t)에 대해서 일정하다. ∙공분산은 시점(시간t)에 의존하지 않고, 단지 시차에만 의존한다. 정상 시계열로 변환 ∙비정상적인 시계열이라면 다루기 어려운 자료로 분석을 실시할때 정상적인 시계열로 바꾸는 작업이 필요하다. ∙비정상시계열 자료는 정상성을 만족하도록 데이터를 정상시계열로 만든 후 시계열 분석을 수행한다. ∙평균이 일정하지 않은 경우: 원계열의 차분 사용 ∙계절성을 갖는..
[통계분석] 시계열 분석목차 01 시계열 자료 ∙시간의 흐름에 따라 관측된 데이터 ∙시계열 분석을 위해서는 정상성을 만족해야 함 02 정상성 ∙시계열의 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것 ∙미래는 확률적으로 과거와 동일하다는 것. 정상 시계열의 조건 ∙평균은 모든 시점 (시간t) 에 대해 일정하다. (\ ∙분산은 모든 시점(시간t)에 대해서 일정하다. ∙공분산은 시점(시간t)에 의존하지 않고, 단지 시차에만 의존한다. 정상 시계열로 변환 ∙비정상적인 시계열이라면 다루기 어려운 자료로 분석을 실시할때 정상적인 시계열로 바꾸는 작업이 필요하다. ∙비정상시계열 자료는 정상성을 만족하도록 데이터를 정상시계열로 만든 후 시계열 분석을 수행한다. ∙평균이 일정하지 않은 경우: 원계열의 차분 사용 ∙계절성을 갖는..
2021.08.13 -
통계 기호 l 상징 기호 이름 의미/정의/예시 P ( x ) 확률 밀도 함수 (pdf-probability density function ) P ( a ≤ x ≤ b ) = ∫ f ( x ) dx P ( A ) 확률 함수 사건 A의 확률 P ( A ∩ B ) 사건 교차 확률 사건 A와 B의 확률 P ( A ∪ B ) 사건 합동 확률 사건 A 또는 B의 확률 P ( A | B ) 조건부 확률 함수 이벤트 B가 발생한 경우 이벤트 A의 확률 Σ 통계에서는 수열의 합. 시그마. 수열의 모든 항을 더한것 더하다는 뜻 sum 에서 유래하여 그리스 기호 시그마로 s로 나타낸다. F ( x ) 누적 분포 함수 (cdf-Cumulative distribution function) F ( x ) = P ( X ≤ x )..
[통계분석] 통계기초 - 수학기호&통계기호통계 기호 l 상징 기호 이름 의미/정의/예시 P ( x ) 확률 밀도 함수 (pdf-probability density function ) P ( a ≤ x ≤ b ) = ∫ f ( x ) dx P ( A ) 확률 함수 사건 A의 확률 P ( A ∩ B ) 사건 교차 확률 사건 A와 B의 확률 P ( A ∪ B ) 사건 합동 확률 사건 A 또는 B의 확률 P ( A | B ) 조건부 확률 함수 이벤트 B가 발생한 경우 이벤트 A의 확률 Σ 통계에서는 수열의 합. 시그마. 수열의 모든 항을 더한것 더하다는 뜻 sum 에서 유래하여 그리스 기호 시그마로 s로 나타낸다. F ( x ) 누적 분포 함수 (cdf-Cumulative distribution function) F ( x ) = P ( X ≤ x )..
2021.08.12