ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [2D Image to BMI] 얼렁뚱땅 Attention guided deep features for accurate body mass index estimation 리뷰
    얼렁뚱땅 논문리뷰 2022. 4. 18. 15:53

     

     

    Introduction

    - BMI의 중요성

    • 건강정보를 나타내는 중요한 지표
    • 사람을 저체중/정상/과체중/비만으로 카테고리화하는 주로 쓰이는 방법
    • 질병과 관련성이 있음
    • 정확한 BMI를 얻는 것은 메디컬분야 및 건강관리에 중요함
    • 따라서, BMI에 대한 관심이 증가함

     

    - 현재의 BMI 측정의 문제점

    • 일어서서 키/몸무게를 재야하는데, 누워 있는 사람한테는 힘듦

     

    - Visual based BMI measurement의 장점

    • 편리하고 불편하지 않음(다른 자세여도 괜찮음)
    • 터치 센서로부터 오는 감염 피할 수 있음
    • 원격 의료가 가능함
    • 많은 사람들이 있는 상황에서도 BMI 측정이 가능함

     

    - 현 연구의 문제점

    • 주로 얼굴기반 vs 3D(RGB-D)
    • 얼굴은 정면 이미지를 사용하기 때문에 프라이버시 이슈 있음
    • Kinect을 이용한 3D의 경우, 햇빛에 민감해서 야외에서 하기 힘들며, 촬영 거리에 의존적임
    • 현행 있는 Face와 3D를 2D Body Image로 넣어 적용하기 힘듦(땅유놘꿔 으와닌구ㅜㅏ?)

     

    - 본 연구에서 하고자 하는 것

    • 위의 문제들에 동기부여 받아 end-to-end CNN + Attention으로 수행하고자 함
    • Input으로 오직 2D 이미지만 필요함
    • 기존 신체측정값(Anthropometric Feature) or Hand-Crafted Feature에 의존적인 기존 방법들과 달리, 어떠한 경험적 가정(empirical assumptions)도 필요없이 Fully CNN based로 가능함
    • Deep Feature를 추출 할 때, 배경정보의 경우 Estimation과 관련이 없기 때문에 방해요소를 제거함

     

    - Contribution

    • 2D 이미지 기반 End-to-End Deep Learning Framework이며, 기존 작업의 데이터 취득(Data Acquistion : 이 작업 저작업 Handcraft를 하는 것을 줄였다는 것을 의미한다고 생각함) 어려움을 제거함
    • Deep Network에 의존적이기 보다는 Attention Mechanism으로 BMI 추정의 일반화 및 성능을 향상시키고자 함. 이러한 조합은 BMI 정확한 Estimation이 가능한 새로운 적용임
    • (Such a combination is considered to be novel for this specific application, which enables accurate estimation of BMI value)
    • 제안 접근방식의 효과를 입증하기 위해 SOTA와 비교 및 Ablation Studies

     

    Related works

    Conventional BMI estimation methods

    - 기존 BMI 추정을 위해 Computational Method or Anthropometric feature를 사용함

    - [10] : 얼굴 이미지를 이용하여 BMI 예측함. 얼굴 이미지에서 여러 기준점을 감지하고 BMI를 예측함. 이러한 방법의 경우, Handcraft 기하학적 얼굴 Feature와 Feature의 개수에 의존적인 경향이 있음

    - [15] : 정상과 내장 비만 실험자를 식별가능한 강력한 2D Face Feature를 실험함

    - [16] : 3D Face에서 기하학적 Feature 추출 방법을 제안함

     

    - 키네틱의 출시는 3D 데이터 기반 접근에 영감을 줌

    - [12],[17] : RGB-D 실루엣에서 신체측정 특징(An~)을 추정함. (키, 허리둘레 등)은 통계 모델로 훈련하여 정확한 결과를 도출하고자 함

    - [8] : Weight Estimator를 제안하였으며, 시각적정보(색, Depth, 성별)등을 사용함

    - [18] : Skeleton free kinet system으로 BMI를 추정하고자 하였으나, 학습과 검증에 모두 합성 이미지를 사용하였으므로, 실제 이미지를 적용하여 좋은 결과를 내기는 어려움

    - [9] : 5개의 신체 측정 Feature를 이용하여 BMI를 추정함. 

     

    - 대부분의 편리한 BMI 예측의 경우 신체측정 값에 의존적임

    - 신체측정 값의 경우, 카메라와 피실험자의 거리에 민감함

    - 따라서 기존 방식의 성능은 개선이 필요함

     

    Deep learning-based BMI estimation methods

    - DL을 이용한 BMI 추정 방법은 기존 방법들보다 우수한 성능을 얻음

    - [11] : Pretrained된 VGG, VGG-Face를 이용하여 얼굴 Feature를 추출한 다음 SVR을 이용해 BMI를 예측함

    - [22] : ResNet50을 이용해 얼굴이미지에서 키, 몸무게, BMI를 추정할 수 있다는 가능성을 탐색함

    - [24] : RGB-D로 촬영하여 Weight를 추정함. 걷고, 서있고, 누워서(보다 다양한 자세) 수행하며 ANN을 이용함

     

    - 얼굴이미지나 3D의 경우, 프라이버시 및 햇빛에 예민해 실제 적용 가능성이 낮음

    - 그리고 2D Image에서 BMI를 예측하기 위해 DL 기반 방식들이 거의 제안되지 않았음

     

     

    Attention guided BMI estimation network

    Data pre-processing

    - Image의 배경은 BMI 예측과 관련이 없으므로 네트워크게 넣기 전, 배경을 지움

    - 배경을 지우기 위해, human pose skeleton joints(Mask RCNN)을 수행함

    - 신체 윤곽 탐지를 위해 17개의 Skeleton을 선택, Detectron2를 이용함

    - Pose2Seg를 이용하여 인스턴스를 분리하고 윤곽선 외부의 픽셀을 0으로 설정해 배경을 지움

    Jin, Z., Huang, J., Xiong, A., Pang, Y., Wang, W., & Ding, B. (2022). Attention Guided Deep Features for Accurate Body Mass Index Estimation. Pattern Recognition Letters.

     

    Deep estimation network

    - DenseNet은 Skip connection을 적용하여, 현재의 계층이 이전의 계층과 모두 (조밀하게) 연결함

    - Object classification, object detection, object segmentation에 우수한 성능을 보임

     

    https://oi.readthedocs.io/en/latest/computer_vision/cnn/densenet.html

     

    - Dense block안의 Layer들은 같은 Feature map 크기를 가짐

    - Transition Layer는 1x1 conv와 avg pool(stride = 2)로 구성되어 있음

    - 여기다가 Transition Layer 뒤에 SE-Layer(Squeeze and Excitation blocks)를 추가하여, Attention end-to-end를 형성함

    - 이렇게 하면 중요한 정보에 민감하게 Attention됨

    - 그리고 기존 1000 FC(with softmax)를 1 FC로 대체함 (For BMI)

     

    - 제안 네트워크는 4개의 Dense Block을 가지고 각 Block 사이에 Transition, SE-Layer를 가짐

    - Conv(1x1, 3x3)을 기본 블럭으로 사용하였으며 BN - ReLU - Conv 순서로 쌓음

    - CNN의 Filter들이 각 Receptive Field를 처리하고 출력하는 값은 

    - Transition Layer(1x1 conv and Avg Pool)은 Feature map의 수를 줄이는 용도로 사용함

     

    - SE Block의 중요성

    • 기존에는 Filter들이 각 Receptive field를 보고 계산함. 근데, 이는 딱 본인이 보고있는 Receptive field 외의 다른 Content는 정보 활용하지 못한다는 단점이 있음
    • 따라서, SE Block은 Avg Pool 및 각 Filter 별 가중치(중요도, Attention)을 줌으로써, Receptive field 외의 외부 정보도 활용한다고 할 수 있음(전역적인 정보를 볼 수 있다는 장점)
    • Squeeze : Feature Map의 전 공간을 Average pool로 Squeeze하여 각 채널을 설명하는 "채널 설명자"를 생성함
    • Squeeze를 다른말로 Global Infromation Embedding이라고 함. 각 채널의 중요한 정보를 쫙 추출해서 사용함을 의미하며, Local receptive field가 매우 작은 네트워크의 경우, 굉장히 중요하게 작용 가능함
    • Excitation : 압축한 중요한 정보를 이용하여 재조정(Recalibration)하는 것임. 아래 네트워크를 보면 fc -> relu -> fc  단계가 있음. 우리가 익숙한 MLP 방법으로 FC와 비선형함수(Relu)로 조정함. MLP로 할 때, 채널간의 의존성(Channel-wise dependencies)를 볼 수 있음
    • Excitation 단계의 Output은, 각 채널의 가중치(Attention 정도)로 볼 수 있으며, 앞의 Avg Pool 에서 도출했던 Feature map과 곱함

    Jin, Z., Huang, J., Xiong, A., Pang, Y., Wang, W., & Ding, B. (2022). Attention Guided Deep Features for Accurate Body Mass Index Estimation. Pattern Recognition Letters.

     

    Experimental Result

    - Dataset은 Reddit wevsite 에서 추출한 것이며(앞의 논문과 동일함), 4190개의 이미지를 이용함

    - 1.77% 저체중, 27.14% 정상, 29.63% 과체중 41.47% 비만임

    - 10 fold cross validation 9:1 -> test data 419개

     

    Implementation details

    - DenseNet121, 32 batchsize, 50 epoch finetuning

    - image size : 224 (with zero padding)

    - Imagenet의 mean, std 사용

    - Optimizer : Adam, lr : 0.0001, momentum : 0.9 and 0.999, weight decay : 0.1

    - Loss : MSE Loss

     

    Comparisons with state-of-the-art method

    - MAE, MAPE를 사용하여, 기존 방법론과 제안한 방법론을 비교함

    - MAE 정답에 대한 오차를 직접적으로 제공함

    - MAPE는 전체 데이터 세트에 대한 상대적 오차를 확인 가능함

    Jin, Z., Huang, J., Xiong, A., Pang, Y., Wang, W., & Ding, B. (2022). Attention Guided Deep Features for Accurate Body Mass Index Estimation. Pattern Recognition Letters.

    - 기존 방법론에 비해 우수한 성적을 내는 것을 확인 가능함

    - Ablation ㅎㅎ 나중에 다시 정리할게요 일단 올리는게 먼저인거 같네요 뿅 빠이

    댓글

Designed by Tistory.