산업데이터 분석

    PPG 데이터로 고혈압 예측하기
    서비스고도화 헬스케어
    PPG 데이터로 고혈압 예측하기

    해당 데이터는 PPG 파형과 심혈관계 질환의 관계를 파악하고자 제공되었으며, 이를 사용하여 고혈압을 예측하는 템플릿을 개발했다. ‘고혈압 단계별 PPG 신호 특징 분석’ 템플릿을 통해 PPG 파형의 진폭과 맥파 전달 시간을 계산하여 각각 고혈압군과 비례, 반비례 관계임을 확인했다. 정보를 빠르게 해석하기 위해 건강 정보 데이터의 컬럼명을 한국어로 변경한 후 219명 환자들의 연령대와 성별 분포를 확인했다. 또한 박스 플롯을 통해 고혈압 단계별 혈압 범위를 확인했다. 이러한 EDA를 통해 데이터를 간략히 이해한 후 고혈압 예측 모델 학습을 진행했다. 건강 정보 데이터와 평균 AM 및 PTT 데이터를 병합하여 연령, 심박수, BMI, 성별, AM, PTT 컬럼을 XGBoost 알고리즘으로 학습하였고 95.13%의 정확도가 나왔다. 2021-12-07

    강판 표면 결함 예측
    공정혁신 철강
    강판 표면 결함 예측

    University of California at Irvine (UCI) Machining Learning Repository의 Steel Plate Faults Data Set을 활용하여 강판 표면 결함 예측 템플릿을 개발했다. 34개 컬럼 중에서 1~27열은 강판 표면 정보를 수치화한 데이터로 구성되어 있고 28~34열은 7가지 결함 종류의 더미 변수로 구성되어 있다. 예를 들어, Pastry 결함에 해당하는 강판은 해당 컬럼에 1이, 그 외의 컬럼에는 0이 들어가 있다. 해당 데이터를 사용하여 강판 표면 결함 분류 및 예측하는 모델을 학습하고, 결함 분류에 기여도가 높은 변수들을 추출하여 결함별 특징을 비교해 보았다.첫째, 데이터의 기술적 통계와 컬럼별 분포를 간략하게 확인하고 전처리가 필요한 부분을 파악했다. 둘째, 랜덤 포레스트 알고리즘에 적용하기 적합한 형태로 데이터 전처리를 수행했다. 셋째, 렌덤 포레스트로 결함 분류 모델을 학습하고 분류 기여도가 높은 변수들을 추출했다. 예측 정확도는 0.9645이 나왔으며, 정확도와 지니 불순도 감소에 영향을 준 상위 12개 변수들을 추출했다. 넷째, 분류 기여도가 높은 변수들을 중심으로 결함별 특징을 시각화하여 비교한 후, 각 결함을 구분할 수 있는 결과를 도출했다.해당 데이터는 Semeion (Research Center of Sciences of Communication)에서 수집한 데이터로, 데이터의 각 컬럼에 대한 정보는 제공되지 않았다. 따라서 각 컬럼이 판금의 어떠한 요소를 의미하는 지표인지를 파악하기 어렵다. 다만, 일부 해석이 가능한 컬럼들을 중심으로 각 결함의 특징을 분류해 보았다. 2021-12-07

    전기차 충전소 설치 현황 분석
    서비스고도화 미래차
    전기차 충전소 설치 현황 분석

    한국 전력에서 제공하는 전기차 충전소 설치 현황 데이터, 전기차 전력 사용량 데이터와 국토 교통부의 전기차 등록대수 데이터를 사용하여 전기차 충전소 설치 현황을 분석했다. 전기차 보유량과 사용량을 기준으로 시도별 현황을 확인하고 전기차 충전소가 부족한 지역을 파악했다.먼저, 어느 지역에서 전기차를 가장 많이 보유하고 있으며, 전기차 수요가 급증한 지역이 어딘 지를 파악하기 위해 전기차 등록대수 데이터를 시도 및 연도별로 분류하여 막대 그래프로 표현했다. 또한 지역별로 증가율의 차이를 비교해보고자 연도별 증가율을 계산하여 막대 그래프로 표현했다.그 다음, 시도별로 등록된 전기차 수를 비교해보고, 전기차 등록대수 대비 충전기 수를 시각화 하여 어느 지역에 전기차 충전기가 부족한지를 파악해 보았다.이와 비슷한 과정으로 전기차 전력 사용량과 충전소와의 관계를 시각화 하여 지역별 특징을 비교해보았다. 어떤 지역에서 전기차를 많이 사용하고 있으며, 전기차 전력 사용량 대비 설치된 충전기 수를 막대 그래프로 표현하여 충전기가 부족한 지역을 확인했다. 2021-12-07

    전기차 배터리 온도 변화에 영향을 미치는 요인 파악
    제품지능화 미래차
    전기차 배터리 온도 변화에 영향을 미치는 요인 파악

    전기차의 실제 주행 데이터를 활용하여 주행 중 배터리 온도 변화와 배터리 사용량에 영향을 미치는 요소를 파악하였다.해당 데이터는 70개의 개별 주행 데이터와 각 주행 데이터의 주요 항목을 통합해 놓은 Overview데이터로 구성되어 있다. 먼저 Overview 데이터를 사용하여 EDA(탐색적 데이터 분석)를 진행하여 주행 중 전기차의 배터리 온도 변화에 영향을 미치는 주요 요인을 파악하였다.또한 70개의 개별 주행 데이터는 환경 데이터(주변 온도, 고도 등)와 차량 데이터(속도, 스로틀 등), 배터리 데이터(전압, 전류, 온도 등), 난방회로 데이터(실내 온도, 화력 등)으로 구성되어 있다. 이 개별 데이터 중 주행 시작 시점의 배터리 온도와 종료 시점의 배터리 온도 차이가 가장 큰 데이터를 추출하여 예측 모델을 구축하고 학습하였다. 2021-12-07

    심부전으로 인한 사망에 영향을 미치는 요인 분석
    제품지능화 헬스케어
    심부전으로 인한 사망에 영향을 미치는 요인 분석

    실제 심부전* 환자의 증상 및 건강 수치 데이터를 활용하여 심부전으로 인한 사망에 영향을 미치는 요소를 파악하였다. 해당 데이터는 심부전 환자의 나이, 빈혈증, 혈중 CPK 농도*, 구혈률*, 당뇨병, 혈소판, 크레아티닌*, 나트륨, 성별, 흡연, 추적기간, 사망 여부로 구성되어 있다. 이에 분류 및 예측 모델을 구축하여 사망에 영향을 미치는 요인을 파악하고, 각 요소가 사망과 어떤 관계를 가지는지 파악하였다.또한 해당 데이터는 결측치 등이 없어 특별한 전처리가 필요하지 않았다. 그러나 299명의 환자로 구성되어 데이터의 크기가 작아 모델의 정확도가 낮은 수준에 머물러있었다. 이러한 경우 모델의 신뢰성 또한 보장되기 힘드므로, 299개의 환자 데이터의 경향을 따르는 데이터를 추가하여 데이터 확장을 진행하였다. 한 데이터 당 10개씩 추가하여 3289개로 확장시켰다. 그 결과 0.6452에 머물러 있던 정확도가 0.9754로 상승하였다.*심부전 : 심장의 기증이 쇠약해져서 혈액의 공급이 불안정한 병*혈중 CPK 농도 : 세포들이 정상적인 기능을 하도록 돕는 효소로 대부분 근육이 수축할 때 사용되는 효소이다. 심장 세포 손상 및 심장 질환으로 수치의 증감이 발생할 수 있다.*구혈률 : 좌심실에서 혈액을 얼마나 잘 짜주냐에 대한 지표로, 낮을 경우 심장 질환을 의심할 수 있다.*크레아티닌 : 근육에서 생성되는 대사산물로 근육량에 비례하여 존재한다. 심부전으로 인해 수치가 증가할 수 있다는 연구결과가 있다. 2021-12-07

    리뷰를 통한 제품 판매 패턴 분석 및 고객 니즈 파악
    제품지능화 포함 2건 가전·전자
    리뷰를 통한 제품 판매 패턴 분석 및 고객 니즈 파악

    해당 데이터를 사용하여 제품 카테코리 별 판매 패턴 분석과 핵심 키워드를 분석하여 고객의 니즈를 파악하였다. 분석 항목은 다음과 같다.1. 인기 색상 확인하나의 제품이 여러 색상, 용량 차이 등으로 나눠질 경우, 각 제품에 대한 특징이 고객 니즈를 파악하는 데에 중요한 요소가 될 수 있다. 따라서 통계적 측면에서 1번 항목을 살펴보았다. 2. 리뷰 개수 추이 확인각 제품의 날짜별 리뷰 개수를 통해 리뷰 개수 추이를 확인하였다. 이를 통해 제품 판매 패턴을 파악할 수 있어 판매량 증감에 대한 유추가 가능했다. 특히 크리스마스, 연말, 새해가 있는 11월~1월의 기간에는 모든 제품군의 리뷰 개수가 급증하는 패턴을 보였다. 3. 핵심 키워드 추출리뷰 제목과 본문에 등장한 단어의 빈도수를 통해 핵심 키워드 분석을 진행하였다. 이 과정에서 제품군 별 소비자의 선택 기준과 니즈를 파악할 수 있었다. 또한 위의 2번 항목에서 확인한 리뷰 급증 기간과 평상시 기간의 키워드를 나누어 확인하였다. 실제로 급증한 기간에는 평상시와 달리 “christmas”, “gift” 등의 키워드가 확인되었다. 2021-12-07