빅 데이터, 비즈니스 인텔리전스, 디지털 변환, 데이터 마이닝 및 기타 유사한 용어는 오랫동안 모든 사람의 입에 오르내렸습니다. 그러나 데이터 마이닝이라는 용어 뒤에 정확히 무엇이 있습니까? 다음 기사에서는 데이터 마이닝으로 무엇을 달성할 수 있는지, 일반적으로 프로젝트를 수행하는 방법, 장점과 문제점이 어디에 있는지 알아봅니다.
데이터 마이닝이란 무엇입니까? (정의)
데이터 마이닝은 체계적이고 컴퓨터를 이용한 응용 프로그램을 말합니다. 통계 알고리즘매우 큰 데이터베이스(빅 데이터/대용량 데이터 세트)에서 가능한 한 자동화하기 위해 연결, 패턴, 추세 및 연결 인식. 그런 다음 결과는 사용 가능한 데이터 구조로 변환되어 추가 처리에 사용할 수 있습니다.
좁은 의미에서 데이터 마이닝은 기존 데이터 세트에서 새로운 관계를 식별하는 것을 목표로 하는 “데이터베이스에서 지식 발견” 프로세스의 분석 단계를 설명합니다. 그러나 실제로 이 용어는 종종 동일시되며 실제 분석 외에도 데이터 준비(예: 웨어하우징/데이터 웨어하우스를 통해)와 결과의 평가 및 해석을 설명합니다.
데이터 마이닝은 비즈니스 인텔리전스(BI) 복합체의 하위 영역이며 예측 분석, 즉 과거의 사용 가능한 데이터를 기반으로 미래 상황을 예측하는 것과도 밀접하게 연결되어 있습니다.
적용 사례
데이터 마이닝은 주로 기존 데이터 볼륨을 분석하고 패턴을 인식하고 평가를 기반으로 의사 결정을 내리는 데 사용됩니다.
실제로 목표는 예를 들어 미래에 대한 예측을 하고, 새로운 추세를 조기에 인식하고, 연결에 대한 가정을 확인하거나 반박하고, 비즈니스 프로세스를 개선하는 것입니다.
구체적인 사용 사례는 예를 들어 고객의 신용도 결정, 사용 가능한 신용 한도 계산, 구매 패턴 및 추세 발견(“제품 X는 종종 Y로 구매”와 같은 장바구니 분석), 질병과 유효성 간의 연결입니다. 의 약물 개발에서 신용 카드 거래 패턴을 사용하는 것과 같은 사기를 평가하거나 적발합니다.
데이터 마이닝은 어떻게 작동합니까?
응용 프로그램 및 작업에 따라 데이터 마이닝 소프트웨어 도구는 다양한 알고리즘, 기계 학습 및 AI를 사용하여 데이터에서 정보를 얻습니다. 특히 다음과 같이 구분됩니다. 마이닝 방법각각 특정 목표를 추구합니다.
데이터 마이닝 방법
이상값 감지/이상 감지:
목표는 이상치 또는 데이터 오류와 같이 추가 조사가 필요한 비정상적인 데이터 세트를 식별하는 것입니다. 데이터 오류 또는 사용할 수 없는 이상이 있는 경우 결과를 악화시키므로 추가 분석을 위해 이러한 값을 숨기려고 시도합니다. 그러나 어떤 경우에는 추구하는 값이 바로 이러한 이상값입니다(예: 사기 사례를 감지할 때).
클러스터 분석/클러스터링:
클러스터 분석은 데이터 구조를 모르거나 알려진 구조를 사용하지 않고 유사성을 기반으로 데이터 세트를 그룹화하려고 시도합니다.
분류/분류:
분류란 이메일을 스팸으로 분류하거나 고객 신용도를 위해 위험 그룹으로 분류하는 것과 같이 특정 상위 수준에 데이터를 할당하는 것을 의미합니다.
연관성 분석/연관 규칙 학습:
연관 분석은 데이터에서 연결 및 종속성을 찾는 데 사용됩니다. 여기에 있는 예는 고전적인 장바구니 분석, 즉 어떤 제품이 다른 제품과 함께 자주 구매되는지 분석하는 것입니다.
회귀 분석/회귀:
회귀 분석은 판매량에 영향을 미치는 가격 및 고객 구매력과 같은 데이터 세트 간의 관계를 식별하는 것을 목표로 합니다.
데이터 마이닝 프로세스(설명 프로세스)
데이터 마이닝 프로세스는 일반적으로 소위 데이터 마이닝을 위한 교차 산업 표준 프로세스(CRISP-DM)를 기반으로 하며, 이는 업계에서 잘 알려진 회사에서 EU 자금 지원 프로젝트의 일부로 개발되었습니다. 목표는 이 접근 방식을 사용하여 모든 데이터베이스를 검색하고 분석할 수 있도록 데이터 마이닝을 위한 표준화된 프로세스 모델을 만드는 것이었습니다.
프로세스 모델은 6단계를 정의하며 그 중 일부는 여러 번 실행해야 합니다.
1단계: 비즈니스 이해
첫 번째 단계에서는 목표와 비즈니스 요구 사항이 정의됩니다. 정확히 무엇을 달성하고 이를 어떻게 수행할 것인지가 결정됩니다.
2단계: 데이터 이해(데이터 이해, 관련 데이터 선택)
목표와 절차가 명확해진 후 기존 데이터 분석을 수행할 수 있습니다. 또한 데이터 품질에 대한 조사와 선택한 목표에 대해 품질이 충분한지 평가합니다. 그렇지 않은 경우 목표 및 요구 사항을 수정해야 할 수 있습니다.
3단계: 데이터 준비
목표와 데이터를 사용할 수 있는 즉시 평가를 위해 데이터를 준비할 수 있습니다. 일반적으로 데이터 준비에 가장 많은 시간이 걸립니다.
4단계: 모델링(방법 선택 및 적용)
준비된 데이터를 기반으로 하나 이상의 데이터 마이닝 방법을 선택하여 적용하여 하나 이상의 데이터 모델을 생성할 수 있습니다. 모델링할 때 데이터 준비가 선택한 행동 양식 신청할 수 있도록.
5단계: 평가(사건 평가 및 해석)
모델링 후 생성된 데이터 모델은 선택한 목표 달성과 관련하여 평가됩니다. 가장 적합할 것입니다. 모델 결과가 만족스럽지 않으면 1단계로 돌아가 목표와 요구 사항을 수정합니다.
6단계: 배포(결과 제공)
프로세스가 끝나면 얻은 지식이 처리되어 적절한 형식으로 제공됩니다.
데이터 마이닝 사용의 장점과 문제점
장점
의사 결정:
얻은 관계 및 통찰력뿐만 아니라 데이터의 평가를 사용하여 추세를 발견하고 향후 개발을 예측하여 경영진이 의사 결정을 내리는 데 도움을 줄 수 있습니다.
효율성 향상:
많은 양의 데이터를 효율적으로 분석하고 정보를 추출하여 경쟁 우위를 확보할 수 있습니다. 프로세스의 오류와 문제를 인식하면 비용이 최소화됩니다.
비즈니스 프로세스 개선:
데이터 마이닝의 도움으로 비즈니스 프로세스의 문제에 대한 가정을 확인하거나 반증할 수 있으며 프로세스의 약점을 발견할 수 있습니다. 시간이 지남에 따라 비즈니스 프로세스의 분석 및 최적화를 구체적으로 추구하는 프로세스 마이닝의 특수 영역이 개발되었습니다.
문제와 도전
고도의 자격을 갖춘 데이터 마이닝 전문가가 필요합니다.
강력한 도구와 올바른 애플리케이션은 별개입니다. 데이터 마이닝으로 가치 있고 정확한 결과를 얻기 위해서는 해당 소프트웨어가 전문가에 의해 운영되는 것이 필수적입니다. 소스 데이터를 올바르게 준비하고 편집하려면 소스 데이터에 대한 이해가 모두 필요합니다. 또한 소프트웨어에서 제공하는 패턴, 연결, 연결 및 결과가 일반적으로 정확하고 관련성이 있는지 평가하는 기능이 필요합니다.
데이터 품질 저하:
모든 평가 방법과 마찬가지로 데이터의 품질은 좋은 결과를 위한 중요한 전제 조건입니다. 모든 실수와 불완전한 데이터 세트는 필연적으로 결과를 저하시키고 잘못된 결과를 제공할 위험까지 초래합니다. 나중에 이러한 결과에 의존하면 잘못된 결정을 내릴 수 있습니다.
개인 정보 보호 및 보안:
많은 양의 데이터를 수집하는 것은 필연적으로 개인 정보 보호 및 보안 위험을 수반합니다. 데이터 세트에는 사용하거나 연결해서는 안 되는 사용자 관련 데이터가 많이 있을 수 있습니다. 한편, 보안 위험과 위반을 식별하고 이후에 해결할 수 있다는 점에서 기회도 발생합니다.
결론
기업의 경우 데이터 마이닝은 운영 비즈니스의 상당한 개선을 의미할 수 있습니다. 해마다 증가하는 수집된 데이터를 평가하고 지식을 얻는 데 사용할 수 있습니다. BI와 데이터 마이닝은 이미 많은 소프트웨어 제품에서 찾아볼 수 있으며 전 세계 기업에서 실제로 사용되는 개선 가능성에 대해 많은 생각을 하지 않은 채 사용되고 있습니다. 이러한 추세는 특히 비즈니스 프로세스 분석, 프로세스 마이닝과 관련하여 계속 증가할 것이며 기업은 비즈니스 프로세스를 대규모로 최적화하여 비용을 엄청나게 절감할 수 있는 기회를 갖게 됩니다.