2022.04.11
일일 회고 58회차
할일 및 한일
경험 및 배움
소변검사 수치 데이터 기반의 건강상태 판단 AI 모델 구현
환자가 소변스트립으로 소변 검사를 한 후, 소변스트립으로부터 측정된 성분의 농도를 AI로 질병을 판단하는 연구를 진행했다.
AI 모델을 학습시키려면 데이터셋의 모든 값을 수치로 변환해야 하므로, 불필요한 문자열 데이터를 제거하거나 0으로 변환하는 가공을 진행했다. 가공된 데이터를 기반으로 문자열로 구성된 질병 이름을 숫자로 변환하여 데이터셋의 모든 값들을 수치로 변환하는 것을 완료했다.
그 다음으로 x값은 소변 성분이 입력되고, y값은 질병에 해당하는 인덱스가 입력된다. 이때 질병에 해당하는 인덱스를 그대로 넣는 것이 아니라 One-Hot 인코딩으로 변환하여 분류 문제를 학습할 수 있도록 구성했다.
마지막으로 성분의 개수만큼 입력층의 입력 개수로 선정하고, 인덱싱된 질병 개수만큼을 출력층의 출력 개수로 선정했다. 그리고 중간에 여러 은닉층을 두어 다층 퍼셉트론을 구성했다. 이전 과정을 통해 가공된 데이터셋을 학습과 평가 데이터셋으로 나눠 다층 퍼셉트론 모델에 학습 및 평가를 진행했다.
학습 횟수를 1,000회로 선정하여 학습 및 평가를 진행해본 결과를 확인해보니, 학습 및 평가 정확도가 60% 이상으로 향상되지 않는 것을 볼 수 있었다. 연구의 목표는 85% 이상이므로 정확도가 향상되지 않는 문제에 대해 분석을 진행했다.
은닉층과 하이퍼파라미터를 여러 번 변경해보면서 학습을 진행해봤지만 정확도가 향상되지 않는 것을 볼 수 있었고, 학습에 영향을 많이 끼치는 요인인 데이터셋을 분석해보기로 결정했다.
데이터셋을 분석해보니 질병은 똑같지만 측정된 성분의 농도가 모두 같은 것을 볼 수 있었다. 즉, 입력값은 같지만 출력값이 다른 경우에 대해서 학습이 정확히 되지 않아 정확도가 향상되지 않음을 알 수 있었다. 그래서 현재 갖고 있는 데이터셋으로는 더 이상 정확도를 향상시킬 수 없겠다는 결론을 내렸고, 데이터셋을 좀 더 수집한 후 다시 진행하기로 결정했다.
개선 및 목표
AI 모델을 개선하기 위해 데이터셋을 더 수집할 필요가 있으며, 더 좋은 방안이 있는지 분석 필요
Last updated