728x90 반응형 데이터 이상값3 [빅데이터분석기사] 데이터 이상값을 검출하는 방법은? 데이터 이상값을 검출하는 방법은 여러 가지가 있다. 하수 첫째, 개별적으로 데이터를 관찰하는 방법이 있다. 둘째, 통곗값(지표 데이터, 데이터 분산도)을 활용하는 방법이 있다. 중수 셋째, 데이터 시각화를 통한 방법 넷째, 데이터 군집화(머신러닝)를 통한 방법 고수 다섯째, 마할라노비스 거리(데이터 분포를 고려한 거리측도) 여섯째, LOF(관측지 주변 밀도간 상대적 비교) 일곱째, iForest 기법(의사결정나무) 하수/중수/고수로 나눈 것은 방법의 질이 낮다는 게 아니라 단순히 암기를 위함입니다. 오해 없으시길 바랍니다. 진정한 고수라면 상황에 따라 적절한 방법을 사용하겠죠? 2021. 4. 2. [빅데이터] 데이터 이상값 발생 원인 발생 원인 - 입력 오류 - 측정 오류 - 고의적 이상값 2021. 4. 2. [빅데이터] 데이터 이상값 발생 원인 1. 고의적인 이상값 2. 데이터 입력시 오류 3. 실험 오류 4. 표본 추출시 에러 발생 5. 측정 오류 2021. 4. 1. 이전 1 다음 728x90 반응형