-
[Image to Image Translation] 얼렁뚱땅 Pixel-wise body composition prediction with a multi-task conditional generative adversarial network 리뷰얼렁뚱땅 논문리뷰 2022. 2. 15. 19:23
하이 -!
오늘도 리뷰할 논문은 아키텍처적으로 새롭거나 엄청난 방법론이라기보다는
cGAN을 어떻게 적용을 하였나 하는 것을 보기 위한 논문 !
이 논문을 읽으면서 Introduction에 있는 내용이 개인적으로 여기저기서 많이 사용할 수 있을 것 같은 느낌이 빵빵 왔다
Introduction
미국의 비만 환자 수는 증가하고 있으며, 비만은 2형 당뇨병, 심혈관 질환 등 다양한 질병과 연관이 존재한다.
따라서, 체지방양을 아는 것이 주요하다
체지방은 크게 2가지로 나눌 수 있는데, SAT(Subcutaneous adipose tissue)와 VAT(Visceral adipose tissue)이다
SAT는 피부아래에 존재하며 피하지방조직을 의미하고, VAT는 중요장기주변에 존재하며 내장지방조직을 의미한다.
SAT와 VAT는 공간적으로 다른곳에 분포하는 곳은 다르다.
기존에 존재하는 SAT, VAT를 예측하는 연구들은 주로 각각을 예측하는 즉 분리되어 있는 모델을 주로 이용하였다
분리되어 있는 모델을 사용하며 이들간의 상관정도는 무시가 된 샘이다
따라서, 이것을 피하기 위해 본 논문에서 제안하는 모델의 경우 SAT와 VAT를 동시에 예측하는 모델을 제안한다
기존에 정확한 Body Composition(체성분)을 분석하기 위해서는 DXA, CT, MRI 등 고액의 장비가 필요하다
또한, 미약한 정도이지만 방사선에 노출되는 위험도 존재한다.
최근에는 BIA(Bioelectrical impedance analysis)(우리가 아는 인바디)를 이용한 체성분 분석도 많이 하지만,
이는 정확도가 낮기 때문에 pixel단위의 SAT나 VAT를 예측하는 것에는 적합하지 않다.
또다른 대안책으로 BMI 등을 사용하기도 하지만 BMI의 경우 체지방량과 제지방량을 예측하는데 한계가 있다
몸무게랑 키만 이용하다 보니까 실제로 근육이 무진장 많은 근육형 사람들은 비만이라고 하고
나처럼 지방이 무진장 많지만 몸무게상으로는 괜찮으면 정상이라고 한다
(근데 나는 덱사로 과체중인가 비만이다 호호호호홓 ㅜ_ㅜ_ㅜ_ㅜ_ㅜ)
최근에 3D scan 기술이 성장하고 3D 체형데이터를 이용한 접근이 많아졌다.
하지만 기존의 연구들은 Body fat percent 혹은 Fat volumn을 추정함으로써, Pixel 수준의 지방량에 중점을 두지 않는다
지방간 등의 질병은 어느 부위에 어느정도 지방이 있나 하는 그런 Pixel수준의 지방량이 필요함에도 불구하고 말이다
conditional generative adversarial network(cGAN)의 경우 image와 condition value에 상응하는 이미지를 생성하는데에 목적을 가지고 있다.
따라서 cGAN을 이용하여 2D projected body shape를 이용해 2D fat map을 예측하고자 한다
본 논문에서는 Pixel 단위로 지방양을 예측하는 것을 목표로한다.
또한 Multitask cGAN을 이용하여 하나의 Input(2D projected body shape)을 이용해 SATmap과 VATmap을 동시에 예측 수행하고자 한다.
본 연구의 Contribution은
1. cGAN을 이용해 Pixel 수준의 SAT, VAT map을 이용한 피하 및 내장지방양 예측하여 높은 정확도를 이뤄냄
2. Same input(2D projected body shape)를 이용해 가중치를 share하고 multitask generator로 SAT와 VAT를 예측함으로써 robust하고 효율적임
3. neural-network-based patch discriminator와 hybrid loss function을 이용해 정확도를 높임
Related work
Medical approaches to determine body composition
CT, MRI Scan의 경우 체성분 평가의 Gold Standard로써 사용되는데, voxel 수준으로 평가함
DXA의 경우 Pixel 수준의 체성분 평가에 많이 사용됨
Body shape based body somposition appraches
기존 연구들
1. 기존에 키와 몸무게를 사용하는 BMI를 이용하는 방법이 존재함
2. 다양한 신체모양 설명자를 이용하여 Whole body fat percente, VAT, SAT 등 픽셀 수준이 아닌 전체 지방량을 추정함
3. DXA 스캔 이미지에서 파생된 신체 실루엣을 이용하여 신체 지표를 연구하기도 함
Conditional Generative Adversarial Network
Generator는 Discriminator가 속을 정도로 이미지를 잘 생성하고,
Discriminator는 그럼에도 불구하고 가짜/진짜 이미지를 잘 판별하는 적대적인 관계를 가짐
기존의 GAN의 경우, noise z에서 시작하여 완전한 Random Image를 도출하였다면,
cGAN의 경우 추가적인 정보(거의 Categorical 혹은 Pix2Pix의 경우 입력이미지)에 상응하는 Output을 도출함
Methodology
Network Architecture
본 논문의 목표는 input image (2D body shape)를 이용하여 output인 Fat Map들에 Mapping 시키고자 한다.
Generator는 Multitask UNet 구조이며 한개의 encoder와 두개의 decoder로 구성되어 있다.
Discriminator는 3개의 Input 값이 정말 Paired한 관계인지 판별하는 역할을 한다.
(본 논문에서는 Pix2Pix 레퍼를 달긴 했는데 Pix2Pix 모델을 차용했다는 말은 없다. 하지만 내 생각엔 유사하다고 생각한다.)
모델의 Input과 Output은 아래 표에 정리되어 있으며
상세 아키텍처는 아래 그림과 같다.
Input Architecture Output 2D Body Shape Generator SAT Map
VAT Map2D Body Shape
SAT Map
VAT MapDiscriminator Real/Fake Wang, Qiyue, et al. "Pixel-wise body composition prediction with a multi-task conditional generative adversarial network." Journal of Biomedical Informatics 120 (2021): 103866. Multitask generator는 Pixel 단위의 이미지 매핑이 필요하였고, 따라서 많이 사용하는 UNet 구조를 사용한다
UNet 구조를 사용하였기 때문에, encoder block과 decoder block을 Skip connection으로 연결해준다.
Skip connection을 사용함에 따라 세분회된 세부 정보도 Decoder에 전달해 줄 수 있다.
한개의 이미지를 기반으로 두개의 서로다른 Map을 예측함으로써 메모리 효율적으로 좋으며, Robust하다는 장점이 존재한다.
기존의 U-Net구조를 Multitask framework에 맞는 Multi decoder로 변경해주어야한다.
각각의 Decoder들의 구조는 동일하며, 같은 Encoder를 사용하며 가중치 등을 공유한다.
기존 단순 Encoder-Decoder 구조의 모델의 경우 Blurry하게 나오는 경향이 존재한다.
이는 각 픽셀수준의 평균만 고려해서 그런 것으로 본 논문에서는 Discriminator를 사용하여
Generator와 적대적인 관계로 더 리얼한 이미지를 생성하고자 한다.
기존의 Discriminator의 경우 전체의 사진을 보고 Fake/Real을 판별하는 거였는데, 본 논문에서 사용하는 것은
특정사이즈의 Patch 별로 Fake/Real을 판단하는 PatchGAN을 사용하고자 한다.
(본 논문에서는 markovian discriminator을 제안한다고 하였지만 Pix2pix 레퍼 달려있고 말하는게 딱 PatchGAN이다)
패치별로 나눠서 보기때문에 스칼라 형식의 Output이 아닌 행렬 형식의 Output이고 이를 Crossentropy를 이용해 loss를 계산한다.
전체 영역을 보는 것이 아니라 Local 정보를 반영하기 때문에 텍스처 정밀도를 향상 시킬 수 있다.
Generator와 Discriminator 안의 모듈들은 Convolution - BatchNormalization - ReLu 구조를 채택한다.
batch normalization을 이용하면 제한된 데이터 크기로 인해 의료분야에서 많이 발생하는 과적합을 줄이는 효과가 있다고 한다.
Objective function
Loss function을 보고 확신했다 얘는 진짜 Pix2Pix를 차용했다.
왜냐 왜냐면 ! Pix2Pix와 Loss function이 거의 동일하다
Pix2Pix는 cGAN의 Architecture를 차용해서 사용한 모델이다.
기존 CNN Architecture만 사용하였을 때 blurry하게 나오는 경향이 존재하였고,
이를 극복하기 위해 cGAN Loss를 함께 이용하여 리얼리틱한 이미지를 생성하고자 한것이다
따라서 cGAN Loss의 사용 목적은 리얼리틱한 이미지 생성
L1 Loss 사용목적은 pixel 수준의 reconstruction loss 확인 이다.
본 논문에서는 multitask로 output이 2개이므로 기존 1개의 L1 Loss만 사용한 것에 반해 2개를 사용한다
Wang, Qiyue, et al. "Pixel-wise body composition prediction with a multi-task conditional generative adversarial network." Journal of Biomedical Informatics 120 (2021): 103866. Wang, Qiyue, et al. "Pixel-wise body composition prediction with a multi-task conditional generative adversarial network." Journal of Biomedical Informatics 120 (2021): 103866. 람다들은 가중치를 의미한다.
본 논문의 experiments에 자세하게 나올테지만, VAT는 SAT에 비해 더 복잡하여 예측이 힘들다고 한다.
따라서, VAT에 대한 가중치를 더 부여하였다고 한다.
Data Preprocessing
Dataset & Data processing
3D CT 데이터는 체성분 분석에 Gold Standard로 여겨지곤 하며, 3D CT는 피실험자의 Body Shape를 정확하게 측정한다
따라서 본 논문에서는 3D CT데이터를 TCIA(Cancel Imaging Archive)에서 그리고 LiTS(Liver Tumor Segmentation Challenge)에서 수집하였다.
두개의 raw data들은 서로 scan protocol을 가져, 데이터를 정리할 필요가 존재하였다.
CT 데이터셋의 두께가 동일하지 않으므로, Slice들을 보간하여 CT의 두께를 보정하였다.
총 270명의 피실험자 데이터를 이용하여, CT 데이터에서 파생된 SAT Map, VAT Map, Body Shape를 구축하였다.
Body Shape의 경우 한 방면으로 Projection 하여 깊이 정보를 보는 것을 의미한다.
본 연구에서의 Body Shape의 해상도는 512x512를 사용한다.
CT slices는 조직의 밀도가 gray scale값에 매핑된 이미지이다
DT에서 지방조직을 추출하는 것은 HU(Hounsfield Units) value을 이용하여 얻을 수 있다.
하지만 VAT와 SAT를 자동적으로 나누는 방법은 없다
따라서 INK-SNAP을 이용하여 주동으로 SAT 및 VAT Map을 만들었다.
Wang, Qiyue, et al. "Pixel-wise body composition prediction with a multi-task conditional generative adversarial network." Journal of Biomedical Informatics 120 (2021): 103866. Experiment
Evaluation metrics
pixel 수준의 지방 예측을 하기 위해서 전체 Body Fat Percent와 분류된 Fat의 분포 둘다 중요하다
따라서, Body fat percent의 오차를 파악하는 Body fat percetage error(BFPE)를 이용하여 평가하였다.
BFPE는 전 실험자들의 fat percentage error를 평균 낸 것을 의미한다.
또한 Pixel 수준의 fat accuracy를 확인하기 위해 MSE를 사용하였다.
그러나 MSE는 fat map의 구조화된 loss를 측정하지 않는다.
따라서, aPCC(average Pearson correlation coefficient)를 이용하여 GT와 Prediction 된 영역 간의 피어슨 상관계수를 파악한다. 이는 1에 가까울수록 잘 예측했다고 평가할 수 있다.
Ablation analysis
patchsize에 따라 표면 정보 예측을 향상시킨다는 것을 증명한다.
아래 사진을 보면 패치크기가 1x1 인것 즉 전체 사진을 보고 Discriminator가 판단하는 것은
일반적으로 흐릿하고 채도가 낮은것을 확인 가능하다
패치크기의 경우 분포 정밀도와 직접적인 관련이 있는 것을 확인가능하며
64x64가 가장 잘 작동 되는것을 볼 수 있다.
패치가 무척 많다고 더 좋은 결과를 초래하는 것은 아닌것 또한 확인가능하다
(위가 SAT, 아래가 VAT)
Wang, Qiyue, et al. "Pixel-wise body composition prediction with a multi-task conditional generative adversarial network." Journal of Biomedical Informatics 120 (2021): 103866. 그 다음 위의 Loss Function의 람다들 즉 가중치를 결정할 때 최적의 값을 찾고자한다.
SAT의 가중치를 50으로 고정시킨 채, VAT의 가중치를 25~200까지 변경시켜가며 최적의 가중치를 구하고자한다
패치의 크기는 64x64로 하며, VAT의 가중치가 증가함에 따라 VAT 예측 결과는 향상되나,
SAT의 예측 결과는 나빠지는 것을 볼 수 있다.
쵲거의 매개변수는 데이터 세트의 성질에 따라 다르기 때문에 특정 값을 제안하지는 않지만
본 논문에서는 SAT 가중치 50과 VAT 가중치 100으로 최종 결정하였다.
(위가 SAT, 아래가 VAT)
Wang, Qiyue, et al. "Pixel-wise body composition prediction with a multi-task conditional generative adversarial network." Journal of Biomedical Informatics 120 (2021): 103866. Comparison with reference method
기존의 Pixel wise prediction에서 SOTA를 찍고 있는 Auto-encoder, Unet, wGAN 등을 이용하여
본 논문에서 한 것과 비교를 하고자 한다.
다른 모델들의 discriminator의 경우 1x1 patch size(일반적인 GAN의 Discriminator)를 사용하므로
본 논문에서도 이와 동일하게 사용한 것을 baseline이라고 명명한다
그리고 본 논문에서 찾은 최적의 환경을 구축한 것을 Our proposed method 라고 한다.
5 fold로 나누어 한 fold는 54명의 사람으로 Test 데이터로 사용하며 나머지 216의 사람은 Train 데이터로 사용하고
K-fold Cross validation를 진행하여 모델을 평가한다.
SAT Map 결과 / VAT Map 결과
(a) GT, (b) autoencoder, (c) Unet, (d) wGAN, (e) baseline, (f) Our proposed method
Wang, Qiyue, et al. "Pixel-wise body composition prediction with a multi-task conditional generative adversarial network." Journal of Biomedical Informatics 120 (2021): 103866. 본 논문에서 제안한 것이 최적의 결과를 도출하는 것을 아래 표와 그림으로 확인가능하다
아래 그림은 실제 정답데이터와의 오차율을 의미한다. 빨갈 수록 오차가 많은 것이다.
Wang, Qiyue, et al. "Pixel-wise body composition prediction with a multi-task conditional generative adversarial network." Journal of Biomedical Informatics 120 (2021): 103866. SAT Map 결과 / VAT Map 결과
(a) autoencoder, (b) Unet, (c) wGAN, (d) baseline, (e) Our proposed method
Wang, Qiyue, et al. "Pixel-wise body composition prediction with a multi-task conditional generative adversarial network." Journal of Biomedical Informatics 120 (2021): 103866. Conclusion
2D body Shape를 이용하여, SAT, VAT map을 픽셀단위로 보여줄 수 있다는 것에 의의가 존재한다.
그럼 안녕
'얼렁뚱땅 논문리뷰' 카테고리의 다른 글