Ⅰ. 서 론
인공지능을 융합한 연구는 기존 연구에 새로운 방법론 적 패러다임을 제시하고, 다양한 산업분야에 폭 넓게 적 용되고 있다. 다양한 인공지능 기술 중, 의료분야에 적용 된 기술은 진단을 위한 의료 AI 알고리즘 시스템 발달에 기여 하였을 뿐만 아니라 진단 및 예방을 위한 기술 발전 에도 기여하였다.1) 방대한 생체정보로부터 심층학습을 이용하여 질병의 종류를 예측하거나, 병변 위치정보에 따른 AI 심층학습(deep learning) 이미지 처리기술은 수술 중에도 실시간 모니터링을 가능하게 하였다.
안과에서 적용하는 인공지능 기술은 이미지처리 기반 의 심층학습이 있다. 정상 안구의 특징을 심층 학습하 고, 망막 이상에 따른 혈관증식 및 혈류누출을 확인하는 이미지 처리 기술은 기존 혈관-조영술에 따른 부작용의 위험을 줄이는데 기여하였다.2,3) 이것은 안과에 적용된 기술로 망막 이미지를 구성하고 있는 픽셀단위를 학습하 여, 해부학적 구조를 이해하게 하였을 뿐만 아니라, 나 아가 정상망막과 이상망막의 학습을 통해 이상 유무 및 정도를 판단할 수 있도록 하였다. Bizios 등4)은 광학단 층촬영(optical coherence tomography)장비를 통해 기 록된 신경섬유층의 두께(RNFL)로부터 인공신경망 학습 이 녹내장 진단 정확도를 효과적으로 구현하여 파라미터 (parameter)를 비교할 수 있도록 하였다. 이것은 인공 지능을 이용한 초기 데이터 학습에서 망막단층의 해부학 적 특성을 이해하고, 나아가 학습과 이로부터 질병예측 및 진단을 통해 컴퓨터 진단 오차를 줄여 신뢰도를 높일 수 있는 진단 파라미터를 형성하는데 기여하였다.
기계학습은 인공지능에서 이미지 데이터가 아닌 구조 형 객체를 학습할 수 있도록 제안되었다. Remeseiro 등 5)은 안구건조증(DES)에서 눈물의 질과 양에 관련된 숨 겨진 다원성 질환의 특징을 기계학습 기법에 적용하여 자동진단을 수행할 수 있는 가능성을 실험하였다. 이것 은 국내 안경광학 교과과정에서도 학습하는 건성안 테스 트를 실제 인공지능에 적용한 것으로, 객관적, 반복적 그리고 자동진단을 시과학분야에 적용 가능한 기계학습 적용사례를 보여주었다.
국내 경우 이미지 기반의 데이터 수집이 적용되지 않 는 시과학, 안광학 분야의 특성에서 인공지능의 심층학 습 모델을 적용함에는 한계가 있다. 기계학습의 모델로 서 적용가능 한 시계열 분석을 이용한 연구가 2014년 연구에서 시도되었다.6) 백내장 유병률 변화양상에 대한 흐름을 시계열 모델에 적용함으로써 심층학습 또는 기계학 습 모델로 사용되는 시계열 분석을 통해 적용가능성을 보여 주었다. 하지만, 백내장 유병률 변화양상을 예측하기 위한 자료의 산출은 평균값을 토대로만 계산되었다. 따라서 시도 하였던 변화 양상은 실제 변화추이와의 유사도 및 연관성을 적용함에 한계가 있다. 기계학습(machine learning) 등의 인공지능은 이러한 변화추이와의 유사도 및 연관성을 적 용하여 예측모델을 통한 변화추이 및 예측을 주된 목적 으로 한다.
본 연구의 목적은 1) 4차 산업시대에 조명되는 인공 지능 기술 중 기계학습을 이용하여, 국내 시과학에서 이 용하고 적용할 수 있는 데이터획득방법과 이를 기반으로 기계학습에 적용 가능한 데이터 학습 모델을 제안하고, 2) 모델 간 비교를 통해 효과적인 학습 프레임워크를 제 시함에 있다.
Ⅱ. 대상 및 방법
1. 데이터수집(data collection)
국민건강보험-건강보험자료공유서비스(NHISS)와 통계 청(KOSIS)에서 발표한 공공자료인 건강검진통계자료를 대 상으로 수집하였다. 자료수집은 특정색인 검색방법을 적용 한 크롤링(crawling) 기술을 이용하여 자동화 수집하였다. 2011년부터 2018년까지 연간보고자료를 대상으로, 검사 인원의 우안/좌안 나안시력분포 데이터(104,587,332/ 104,620,771개)를 사용하였으며 2011년(11,070,569/ 11,070,569개), 2012년(11,377,978/11,415,301개), 2013년(11,381,295/11,377,411개), 2014년 (12,301,581/ 12,301,581개), 2015년(14,025,411/14,025,411개), 2016년(14,548,392/14,548,392개), 2017년(14,805,207/ 14,805,207개), 2018년(15,076,899/15,076,899)의 데 이터로 구성되었다.
2. 데이터 생성과 분류(data clustering)
수집한 2011년부터 2018년까지 기록된 연간 데이터 의 일별 데이터로의 확장(up-sampling)을 위한 이차 보간(quadratic interpolation)을 하였다. 기계학습을 위한 데이터 생성에서 독립변수는 일별 데이터로 설정하 였고, 종속변수는 시력으로 설정하였다. 시력을 총 5개 구간으로 1구간(V.A. 0.1이하), 2구간(V.A. 0.2~0.4), 3구간(V.A. 0.5~0.7), 4구간(V.A. 0.8~1.0) 그리고 5 구간(V.A. 1.1~1.5)으로 범주하였으며, 마지막 6구간 (V.A. 1.6~2.0)구간은 제외하였다. 기록된 총 2,192개 의 시력데이터는 연구모델의 데이터 학습을 위한 학습세 션(learning session)과 학습한 모델의 정확도 그리고 모델이 예측한 추이변화와 실제 데이터 간의 차이를 평 가를 위한 테스트세션(testing session)로 구분된다. 2011년 1월 1일부터 2016년 12월 31일까지 기록된 1,826개 자료를 학습세트(learning set)로 사용하였다. 2017년 1월 1일부터 2018년 1월 1일까지 데이터 366 개 자료는 평가세트(test set)로 구분하였다.
3. 데이터 전처리(data preprocessing)
원활한 시계열 데이터 학습과 다변량(multivariate)변수 예측을 위해, 데이터 구간조정(scale)과 다중구간(multistep) 으로 데이터 전처리(preprocessing)를 하였다. 데 이터 구간 조정에서 sklear-pachage MinMax scaler를 사용하였으며, 다중구간의 전처리로 재귀방법(regression method)을 적용하였다.
4. 데이터 학습(data learning)
기록된 시력데이터를 이용한 기계학습을 위해 개발된 8개 모델을 적용하였다. Linear Regression, LASSO, RIDGE, Elastic Net, Huber Regression, LASSO/LARS, Passive Aggressive Regressor 그리고 Pansacregressor 모델을 각 각 이용하여 데이터 학습하였다. 연구의 기계학습이 실제 구동 될 수 있도록 라이브러리를 제공하는 scikit-learn package를 사용하였다.
5. 평가(validation)
예측 모델이 예측 한 값과 실제 데이터 값의 차이를 평균 제곱근 오차 RMSE(Root Mean Squared Error) 를 이용하여 예측 정확도를 평가하였다. 추정량(yi)과 추정모수()와의 차이는 예측값이 실제 기록된 데이터 와의 차이를 나타내는 밀집성의 정도를 나타내는 지표로 사용하였다(1).
모델의 직관적 평가를 위해 예측치와 실제 데이터 사이 의 평균 크기를 측정한 MAE(Mean Absolute Error)를 이용하였다. 동일한 가중치를 갖는 예측과 실제 관측치 사 이의 절대 차이에 대한 시험 표본의 평균을 측정하였다(2).
Ⅲ. 결 과
8개 모델을 사용하여 기계학습 하였다. 학습데이터로 부터 2018년 예측한 결과와 실제 기록된 데이터 간의 오차평가를 위해 MAE와 RMSE를 각각 적용하였다. 본 연구모델이 예측한 예측과 실제 값의 오차는 0에 가까울 수록 모델의 예측 정확도가 높음을 의미한다. MAE 평 가결과 우/좌안 Linear Regression(0.22/0.22), LASSO (0.83/0.81), RIDGE(0.31/0.31), Elastic Net(0.86/ 0.84), Huber Regression(0.14/0.07), LASSO/LARS (0.15/0.14), Passive Aggressive Regressor(0.29/ 0.18) 그리고 RANSA Regressor(0.22/0.22)을 각각 보 였다. 또한, RMSE 평가결과 각 모델별 우/좌안 Linear Regression (0.40/0.40), LASSO(1.08/1.06), Ridge (0.54/0.54), Elastic Net(1.19/1.17), Huber Regression (0.20/0.20), LASSO/ LARS(0.24/0.23), Passive Aggressive Regressor(0.21/ 0.58) 그리고 RANSA Regressor (0.40/0.40)을 보였다(Table 1).
Ⅳ. 고찰 및 결론
본 연구는 데이터를 직접 검색하고 수집하는 전통적 방법에서 국민건강검진을 통해 매년 기록되어 발표되는 국민 시력보고서를 대상으로 특정색인 단어를 대상으로 검색하고 수집하는 크롤링 기술을 적용하여 자료를 획득 하였다. 이를 통해, 국내 시과학 분야에서 빅데이터(Big Data) 검색과 수집이 가능한 효과적 방법을 제안하였다. 또한, 인공지능(AI) 개념 중 하나인 기계학습을 통해 데 이터를 학습하고 예측모델을 구현하였다. 기존 AI를 이 용하는 의료분야 중 발표된 기계학습 또는 심층학습은 이미지 데이터를 기반으로 발표 및 연구되었다. Daniel 등7) 망막 이미지를 심층 학습하는 기술은 질환의 이상유 무와 중증도를 평가하여 진단하는 것을 포함하였다. 이 것은 2차원 망막 이미지(fundus image)를 심층 학습하 여 혈관 모양을 추출하는 단계로부터 나아가 당뇨병성 망막병증(Diabetic Retinopathy)과 같은 망막 질환을 진단하고 중증도를 구분할 수 있는 연구까지 시도되었음 을 의미한다.3) 뿐만 아니라, 심층학습을 통해 안저 영상 (fundus image) 및 OCT를 이용한 신경섬유층 RNFL (Retinal Nerve Fiber Layer)으로부터 초기 알츠하이머 (Alzheimer’s disease)와 뇌졸중(Stroke)과 같은 다양한 예측이 시도되고 있다.8-11) 하지만, 국내 시과학 분야에 서 기계학습과 같은 4차 산업관련 연구는 미비하다.
본 연구는 기계학습을 이용한 재귀적 회귀방법을 선형 회귀에 적용하여 다변량 시계열을 예측하였다. 기존 기계 학습 알고리즘은 단일 값을 예측하며 다중 예측에 직접 사용할 수 없었다. 이 문제를 극복하고자 단일 예측 값을 재학습하는 재귀방법을 고안하여 기계학습 알고리즘을 구 성하여 다중 예측을 수행하였다. 수행한 기계학습 알고리 즘은 비교적 유사하게 실제 데이터를 예측 가능한 결과를 보였다. 뿐만 아니라 재귀적인 방법을 통하여 다변량 변 수(multi variables)를 동시에 예측하였다. 학습에 따른 정확성을 예측하고 이를 비교하는데 MAE와 RMSE 분석 을 적용하였다. 두 방법 모두 0으로 수렴할수록 100% 일 치함을 의미한다. 해당연구에서 적용한 8개의 기계학습 모델 중, Huber Regression와 LASSO/LARS 모델 예 측력이 타 모델들에 비해 정확도가 높았다.
데이터로 구성된 구조체의 특징을 선택하는 특징 선 택(feature selection)은 데이터가 지닌 특징을 예측에 반영함에 있어 중요하다. 이것은 점진적 선형회귀의 좋 은 대안을 제공하는 것으로 LASSO/LARS모델이 다양 한 변수 등 중 학습으로부터 유의미한 특징을 평가 및 예측단계에서 적용하여 다른 모델에 비하여 변수를 확장 하여 적용할 수 있음을 나타낸다. 이 중 LASSO/LARS 은 예측을 위한 효과적인 알고리즘으로 기존의 LASSO 파라미터에 대해 정규 최소 제곱계수를 0으로 축소하여 고정변수를 선택할 수 있도록 하였다. 이것은 LASSO 계열의 모델의 특징상 예측 값에 의미 있는 변수를 선택 하여 반영할 수 있고, 결국 이것이 다양한 환경에서 예 측 확률을 높일 수 있는 중요한 바이어스(bias)가 됨을 나타낸다.12-14) 관측된 데이터의 범위에서 벗어난 이상 치(outlier) 탐지 및 제거에 강한 Huber Regression은 다량의 빅 데이터에서 문제되는 노이즈(noise)를 효과적 으로 제거하고, 추론과 추정을 필요로 하는 예측 모델에 효과적으로 적용된다.15) Krasker와 Welsch16) 연구는 Huber 모델이 회귀 추정계산을 위한 알고리즘에서 강 력한 회귀 추정치를 증명하였다. 이로부터, 수집된 데이 터에서 의미 있는 변수의 선택과 이상치 탐지에 효과적 인 두 개의 모델이 예측에 따른 실측 데이터와의 비교에 서 가장 높은 정확도를 보일 수 있었던 것으로 사료된 다. 하지만, 수집한 시력자료에서 2011~2018년 기록기 간과 기록된 시력분포도만은 실제 시력에 영향을 주는 다양한 상황적 요인(인터넷 보급률, PC 사용량) 및 인구 분포도 등, 현실을 반영할 수 있는 변수를 추가 학습하지 못했다. 뿐만 아니라 데이터 형식의 제한으로 심층학습 시계열 분석 모델인 DNN(deep neural network) 또는 LSTM(long short term memory)을 적용하는데 한계 가 있었다. 이것은 향후 추가 연구에서 이와 같은 다양한 변수를 추가로 학습하는 구조체를 학습할 수 있는 모델 로 발전시켜 연구한다면, 예측확률을 보다 유의미하게 최적화 발전시키는 것이 가능할 것이라 기대된다.
데이터 공유를 통한 인공지능의 발전은 학문적, 산 업적 발전에 기여한다. 시과학 연구에서 기계 또는 심층 학습을 성공적으로 적용하기 위해서는 연간기록을 월간 기록으로 세분화하고, 데이터에서 시력에 영향을 미치는 다양한 변수를 함께 조사하여 기록하는 데이터 구조체의 세분화 및 다양화로 발전되어야 한다. 이를 통해, 시간 의 흐름에 따른 변화추이 및 예측에 대한 안정적 심층학 습을 위한 준거데이터를 확보할 수 있는 기틀을 마련할 수 있을 뿐만 아니라 이를 통해 확장된 AI 적용 알고리 즘 구현이 가능하다.
본 연구결과는 시과학분야 연구에서 사용되는 유사구 조 형식을 이용하고, 기계학습을 적용하는데 있어 모델 간 예측성능을 비교하였다. 더불어, 기존 시계열 분석에 국한된 데이터구조의 형태를 기계학습이 가능한 형태로 변환하였다. 이것은 데이터 형식으로 제한된 다변량 학 습을 기계학습으로 적용할 수 있는 구조적 프레임워크를 제시하고, 이를 통한 최적 예측 모델 제시를 의미한다. 결론으로, 향후 유사구조로 기록될 수 있는 데이터 형태 의 연구에서 인공지능기술과의 접목을 통한 새로운 시과 학 연구로의 가능성을 제시하였다.