ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [2D Image to BMI] 얼렁뚱땅 Estimating Human Weight from A Single Image 리뷰
    얼렁뚱땅 논문리뷰 2022. 4. 10. 16:45

    IEEE Transactions on multimedia의 따끈따끈쓰한 논문

    시작 ! 

     

    Introduction

    - 사람 몸은 Soft biometrics(키, 몸무게, 성별)등으로 인코딩 되어있음

    - 이러한 정보는 법의학 등에서 많이 사용되고 있음

    - 특히, 사람의 몸무게는 건강의 지표로써도 사용되는 중요한 정보임

     

    - 과도한 몸무게는 당뇨병, 비만 등 질병과 연관이 되어있음이 헬스케어 및 메디컬 분야에서 오래 연구됨

    - 그렇기 때문에, 정확한 몸무게 측정은 사람의 건강정보 및 Medical care solution을 위한 중요한 것임

     

    - 보통 스프링저울을 이용해 몸무게를 제는데, 이는 중력에 의존해서 몸무게를 재는 것임

    - 이는 응급상황이나 그럴 때에는 적절하게 사용되지 못함

     

    - 이러한 문제로 Visual-based body weight measurement 연구가 제안되며 여러 장점을 가짐

    - 1. 꼭 서있지 않아도, 걷고, 눕고 해도 측정 가능함

    - 2. 편안하고 편리하게 사용이 가능하며, 접촉식 센서로부터 오는 감염 리스크도 없음

    - 3. 여러명이 있어도, 각 군중들의 헬스 정보를 얻을 수 있음

    - 4. 우주 공간에 있는 우주비행사도 weight 측정이 가능함

    - 그러나 몸무게를 이미지로 예측하는 것은, 카메라와 피실험자의 거리 등에 민감하기 때문에 직접 무게를 estimating 하는 것은 한계가 존재함

     

    - 따라서, 본 논문에서는 사람의 키와 몸무게 정보가 담겨있는 BMI를 체중의 대리 척도로 사용함

    - BMI 식은 아래 사진과 같음

    - ~18.5 : 저체중, 18.5~25 : 정상, 25~30: 과체중, 30~ : 비만

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    - BMI는 사람의 health conditions을 가리키기 때문에, BMI 예측은 최근 몇년간 주목을 받음

    - [14]번 논문 : 사람의 얼굴에서 Feature를 도출하여 BMI를 예측함 즉, 얼굴 이미지와 BMI 사이의 상관관계를 봄

    - [14]번 논문 : 근데 얼굴 데이터 특성상 프라이버시 이슈로 2D body image에 비해 사용하기 어려움

    - [15]번 논문 : 3D or Kinect RGB-D 카메라를 이용하여 BMI를 예측함

    - [15]번 논문 : 근데 Kinect RGB-D가 햇빛에 민감하기 때문에 밖에 환경에서 사용 못함

     

    - 본 논문에서는 위의 문제를 해결하기 위해 Single 2D image를 기반으로 BMI value를 estimation 함

    - 크게 2개의 Branch로 나눠져 있음

    - 하나는 사람의 신체 특징(허리 너비 등)이며 하나는 딥러닝을 이용한 이미지의 Feature Map을 이용함

    - (Waist width to thigh width ratio, waist width to hip width ratio, waist width to head width ratio, hip width to head width ratio, the number of pixels per unit area between waist and hip, nose-knee height to waist width ratio, waist width to shoulder width ratio)

    - 이 두개를 합쳐서 BMI를 예측하고자 함

     

    - 또한, BMI dataset을 Publish함

    - BMI Dataset에는 성별, 나이, 키, 몸무게 등의 Attribute를 함께 제공함

     

    - 본 논문의 Contribution은

    • Dual-branch BMI Estimation framework를 제안함(Single 2D image to BMI Prediction)
    • 5개의 일반적인 신체측정 Feature와 또 다른 2개의 치수를 이용하여, Deep feature와 합쳐 BMI 예측의 정확도를 높임
    • 2D image to BMI Dataset was collected and released

     

    Related Work

    - 본 논문에서는 Visual based 방식으로 접근하였기 때문에, Visual Based Approach들을 중심으로 리뷰

     

    Body Weight Estimation from Face Images

    - [14][16] : 최초로 얼굴 이미지를 이용하여 BMI Prediction을 수행하고 Face Feature과 BMI 사이의 상관관계를 분석함

    - [17] : 정상/비만을 예측할 수 있도록 15개의 Face characteristics를 도출하고 평가함

    - [18] : Pretrained VGG와 VGG-FACE로 얼굴 표현을 도출하고 SVR로 BMI를 Prediction 함

    - [22] : Resnet50을 이용하여 단일 얼굴이미지에서 키, 체중, BMI를 추정하는 가능성을 탐색함. 이들은 1026명의 얼굴 사진으로 데이터셋을 구축함

    - 이들은 실제 Inference 할 때, 선명한 정면 얼굴 이미지가 필요함

     

    Body Weight Estimation from 3D Images

    - [15] : RGB-D Vody silhouette에서 인체를 측정하는 것을 수행함(키, 허리둘레, 팔다리 길이 및 둘레), 4% 오차이내

    - [6] : Single RGB-D Image(시각적 색깔 정보, depth, 성별 정보)를 이용하여 Weight estimator 제안하였으며, 400개 RGB-D Dataset Publish

    - [24] : Skeleton-free Kinect으로 BMI Prediction함 Synthetic images를 이용해 학습 및 검증함 실제 Body Image로의 Inference는 힘듦

    - [8] : RGB-D 카메라 앞에서 눕고, 서고, 걷고 하는 3가지 포즈로 사람의 체중을 ANN 통해 추정함. 439개의 측정값이 포함된 데이터 세트를 Publish함. 

    - 기존의 RGB-D를 이용한 방법은 D에 의존적인데, Kinect의 경우 빛에 따라 정밀도에 한계가 있어 야외에서는 사용할 수 없다는 단점이 존재함

     

    Body Weight Estimation from 2D Images

    - 2D 데이터의 경우, 정보가 부족하기 때문에 정확한 BMI 및 Weight 추정에 한계가 존재함

    - [5] : NHANES에서 신체정보(길이 같은 거), 사진을 수집[25]하여 Image based body wieght estimation 수행

    - [5] : Visual Based로 추정하기 위해서 인체 측정 값과 Weight 사이의 상관관계를 분석하고 Weight를 추정가능한 식을 도출함

    - [7] : 앞선 [5] 연구의 영감을 받아 2D body Image로 5개의 신체 값을 도출하고 이로 BMI를 추정함 하지만, Handcrafted 방식으로 신체특징들을 도출하는데 한계가 있고, 여전히 성능이 좋지 않았다.

    - 그리고 여기는 너무 데이터 셋이 적은 것도 한계임

     

    Proposed BMI Estimation Framework

    - 아래 사진은 본 논문에서 제안하는 Framework임

    - 크게 Feature Extraction과 Feature mapping 단계로 나뉨

    - Feature Extraction 부분은 Anthropometric Feature(신체 길이 등 부위에 관한 정보)에서 Feature를 추출하는 것과, Deep Learning을 이용해 Deep Feature를 추출하는 부분으로 Two-Stream으로 구성되어 있음

    - 신체 데이터를 이용해서 Feature를 뽑는 부분은 또 크게 3가지로 구성되어 있음

    - 마지막에 Feature들을 합쳐서 BMI Value를 Estimation하는 것이 Feature Mapping 단계임

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    Anthropometric Feature Extraction

    - Skeleton joint Detection, Body contour Detection(excluding the arms), Feature computation 으로 구성됨

    - Skeleton 좌표 탐지, 신체 윤곽 감지, Feature 계산

     

    - Skeleton Join Detection

    • Mask RCNN으로 골격을 감지함(오?)
    • 관절 위치를 탐지하도록 각 Skeleton 당 1개의 Pixel 할당
    • [27]에 따라, 신체 특징을 잘 도출 가능한 17개의 점을 사용함
    • Detectron2를 이용하여 관절 좌표를 도출함
    • 아래 사진 중 input을 (a)로 사용하면 결과는 (b)가 나오도록 함

     

    - Body Contour Detection

    • 윤곽을 따내는 것은 포즈나 가려진 부위의 영향을 쉽게 받음 그래서 챌린지임
    • 따라서 여기서는 Skeleton을 먼저 추출하고, Skeleton을 연결해 포즈를 형성한 다음 분할함
    • 이렇게 하면, 사람의 포즈기반으로 Segmentation을 수행하는 것임(Pose2Seg)
    • 이로써 포즈 및 가려진 부분에 대한 영향을 피할 수 있음
    • 결과는 (c)에서 확인 가능 함

     

    • 근데 본 논문에서는 허리 너비를 사용하는데, 허리 더비의 경우 팔이 딱 붙어 있을 때, 허리로 판단되어 허리 너비가 과대평가될 수 있음
    • 따라서 Self-correction human parsing 방법을 사용해, 팔 부분을 빼고 분할 결과를 얻음(e)
    • 사람 안에 있으면 Label = h 아니면 b(ackground)임
    • lxy = h 라는 의미는 픽셀 x,y는 사람 안에 있는 픽셀이라는 것임

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

     

    - Anthropometric Feature Computation

    • Health Science[7]에서 Waist width to thigh width ratio, waist width to hip width ratio, waist width to gip width ratio, waist width to head width ratio, hip width to head width ratio, body area between the waist and heap을 BMI를 측정할 수 있는 지표로 제안함
    • 5 : 허리 대 허벅지 너비, 허리 대 엉덩이 너비, 허리 대 머리 너비, 엉덩이 대 머리 너비, 허리와 엉덩이 사이 면적
    • 여기에 본 논문에서는 Nose to Knee to the waist width ratio, waist width to shoulder width ratio 를 추가함
    • 2 : 코에서 무릎 거리와 허리 너비 비율(HWR), 허리너비와 어깨너비 비율(WSR)
    • HWR은 직관적으로 보았을 때에서 영감을 받음. 마른 사람의 HWR은 비만의 HWR보다 클 것임
    • 기존에는 높이 정보를 사용하지 않았는데 HWR은 높이 정보도 본 것임
    • WSR은 비만이 아닌 사람은 보통 역삼각형 몸통으로 어깨 너비가 더 넓을 거지만, 비만인 사람들은 허리 너비가 더 넓어서, 비율이 다를 것임
    • 비율을 사용하는 이유는 실제 둘레를 알 수 없기 때문에, 비율로 접근 하는 것

     

     

    Deep Feature Extraction

    - Resnet을 백본으로 사용함

    - Conv2D - BN - ReLU 으로 구성된 Residual block 사용

    - Imagenet으로 Pretrained된 Resnet 101로 이미지에 대한 특징을 더 잘 도출함

    - 원래 마지막 층이 1000층인데 위에 있는 Anthropometric Feature과 밸런스 맞추기 위해 15dim으로함

    - 학습 시키는 과정은 아래 개발새발로 그린 그림과 같음

     

    본 논문 Github, 김민지의 킹왕짱 멋진 그림

    Feature Mapping

    - 진짜 아래 그림이 진짜 정확함 근데

    - 모냐면 신체 정보/Deep Feature 모두 따로따로 수행하는 거 맞고 Feature들을 마지막에 Concat해서 GPR로 BMI 예측함

    그림천재 김민지의 그림.

     

    Dataset

    - 본 연구에서는 2D 신체이미지에서 BMI를 얻는 가능성을 탐색하고자 하므로, 일상생활 사진과 같이 일반적이고 인체의 정면뷰가 있는 RGB 데이터 셋에 대해 탐색함

    - 여기서 일반적이라는 의미는 핸드폰, 테블릿 등으로 찍은 사진이라고 할 수 있음

    - 아래 표와 사진이 일반적으로 BMI를 추정하기 위해 사용할 수 있는 데이터셋임

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

    - [34]번 논문(스마트배드 위에서 찍은 사진으로 BMI 예측과 Identity Recognition(?))에서, PmatData, HRL-ROS가 BMI 예측에 사용됨

    - RGB-D로 구축된 데이터셋의 경우 광원에 민감하기 때문에 Daily Measurements라고 할 수 없음

    - 병원에서 찍은 데이터셋의 경우에도 Daily Measuremetns X

    - Visual-body to BMI[7]은 RGB 사람의 Front이미지가 충분히 많이 있으며, BMI Annotation도 존재함

    - [7]을 벤치마킹하여, 새로운 데이터셋을 구축함

     

    - 수집된 사람의 데이터는 한 웹사이트으로부터 얻은 것임

    - 이 웹사이트는 사람들이 본인의 체중관리 전과 후의 모습을 비교해서 올려서 체중관리 으쌰으쌰를 위한 웹사이트임

    - 따라서, 한 사람에 대해 2개 이상의 이미지 데이터셋을 가지고 있음

     

    - 아래 (a)와 같이 사람들이 올림

    - 같은 사람이기 때문에 같은 Height를 공유하나, 체중관리 전 후 이기때문에 Weight는 다름

    - 두개의 이미지를 보고, 어떤 것이 체중관리 후 인지 수동적으로 확인하고 구별해야 함

    - 사람들이 올린 거 중에, 성별, 나이, 키, 몸무게 속성이 포함된 것만 선별함

    - 따라서 본 데이터셋은 4189개의 이미지(남성 : 1477, 여성 : 2712)로 구성됨

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

    - 아래 그림은 Attribute의 분포를 보여줌

    - 1.77%만 저체중이고, 보통이 27.63%, 과체중이 29.63%, 비만이 41.47% whswogka

    - 데이터 수집할 때 키와 무게를 Attribute로 선택했기 때문에 GT의 BMI를 구할 수 있음

    - 나이는 16~56세 사이에 수집되었고 24살 정도가 젤 많음

    - 인종은 European, North American 비율이 80.21%으로 절대적으로 높고, 4.23% African, 9.05% Asian

    - 피부색을 기준으로 분류했는데, 얼굴을 가렸거나 인종이 뭐지 잘 구별 안되는 273명은 'Uncertain' 그룹으로 분류함

    - 이 데이터셋의 이름은 2Dimage-to BMI임

     

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    Experimental Results

    - SOTA 방법론과 우리가 제안한 방법론을 우리 데이터셋을 이용해서 비교하는 것을 수행함

    - Randomly하게 7:3비율로 Train/Test 구분

    - Train : 2935 image(남자 1032, 여자 : 1903)

    - Test : 4:1로 나눠서 1개 validation 수행

     

    Implementation Details

    - Deep feature extraction : Fine tune RestNet101, Batchsize : 64, epoch : 50

    - 이미지마다 사이즈 달라서 맨 먼저 224로 맞추고 빈공간 zero padding

    - Final Image 크기 : 224x224

    - 이미지의 비율을 바꾸지 않음

    - Image tensor nomalized : [0.485, 0.456, 0.406] [0.229, 0.224, 0.225] -> Imagenet

    - Adam, lr : 0.0001

     

    Correlations between Extracted Features and BMI Values

    - extracted한 Feature와 BMI 사이의 스피어만 상관계수를 봄

    - 스피어만 상관계수는 두 데이터셋 사이의 관계를 볼 수 있음

    - Feature와 BMI가 주어졌을 때, 이것들을 Rank(순위)로 변경하고 순위의 상관계수를 봄

    - correlation의 신뢰도를 보기 위해 P-value를 봄

     

    - HpDdR을 제외하고 성별과 Feature간의 상관관계가 존재함

    - 아마 옷 스타일이나, Body Fat 분포, 다른 포즈.. 뭐 이런거에서 오는 차이라고 봄(?)

    - Deep Feature의 경우 신체 측정 Feature보다 BMI와 높은 상관관계를 보임

    - Area, HWR은 음의 상관관계보임

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

    Comparisons with State-of-the-art Methods

    - MAE와 MAPE를 이용해서 결과를 비교하고자 함

    - yi^이 의미하는 것은 i번째 이미지를 이용해 Prediction한 BMI를 의미함

    - MAE는 정답에 대한 추정 오차를 직접적으로 구하는 것임

    - MAPE는 전체 데이터 세트의 상대 오차를 구할 수 있음

     

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    - 2D 이미지를 이용한 BMI 추정 연구는 [7]번만 존재하여 [7]번을 기본적으로 비교하는 애로 채택

    - 그리고 우리꺼에서 Deep Feature를 VGG로 변경해서 비교해봄

    - 그리고 데이터셋을 [7]번 데이터셋과 우리 데이터셋 둘다 비교

    - [7] 데이터셋에서 랜덤하게 4000개 선택해서 함

    - 아래 표가 정량적 오차 비교임

     

    - 우리의 방법이 기존 연구들보다 확실히 결과가 잘 나옴

    - [7]은 오직 신체 측정 데이터만 사용한것과 달리 1.99정도 오차 감소하고, 6.27% 정도 감소

    - Deep Feature의 이점을 확인 가능함

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

    - 아래 사진과 같이 다른 방법들에 비해 오차가 매우 적은 편이며, 일반화가 잘 되었다고 할 수 있음

    - 하지만 우리 데이터셋의 경우, 저체중의 비율이 적어서 저체중은 비교적으로 오차가 높은 편임

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    Ablation Study

    Deep feature vs Anthropometric Feature

    - 아래 표를 보면, 일반 신체측정 Feature보다 DF가 BMI와 더 큰 상관관계를 보이는 것을 확인 가능함

     

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

    - DF와 7개의 신체측청 Feature만 사용한 것을 비교해 보아도 , DF가 우수한 것을 확인 가능함

    - DF는 데이터의 통계의 의존적이기 때문에, 인체측정 Feature보다 다양한 포즈 및 의상을 입어도 처리 가능

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    Single-branch vs Dual-branch / Five-anthropometric vs Seven anthropometric / With arms vs Without arms 

    - 표 해석

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    Sensitivity of anthropometric feature extraction

    - 신체 측정 값을 도출하는 것이 로버스트하게 잘 되는지를 보고자 함

    - 기존 다른방법으로 Feature 추출 하는 것과 비교한 테이블임

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    Resnet vs other deep network

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    The number of deep feature

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    GPR vs Other Regression Method

    - 마지막 행 4개를 보면 됨

    - SVR 또한 우수한 성적을 보였음 하지만, GPR은 닫힌 형태로 Fit 될 수 있으며, 데이터 수가 적을 때 강력하기에 GPR씀

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    Failure Cased Discussion

    - 옷이 많이 펑퍼짐하면 제대로 에측 못함

    - 약간 비스듬히 서있고, 팔이 이렇게 몸통 안쪽에 있으면 제대로 에측 안됨

    - BMI 데이터셋에 저체중이 별로 없엇어서 얘도 잘 안됨

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    Gender Bias Discussion

    - 남자보다 여자가 더 잘되는데, 그게 데이터셋에 여자가 더 많아서 그런듯 하다

    - 그래서, 남자랑 여자랑 개수 맞출려고 랜덤으로 여자꺼 몇개 지워서 1032개씩으로 해봤다

    - 그런데 결과를 보니까 이미지 개수와 상관없이 여자가 더 잘되더라

    - 여성이 남자보다 지방이 많고 근육이 적기 때문에, 체형과 체중 사이의 명확한 관계를 설정하기 더 쉬움

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    Test on Third party Images

    - 6명을 5개의 각도로 사진을 찍어서 질험을 해봄(핸드폰으로 찍은 사진임)

    - 제안된 메서드는 각기 다른 View Point에서 로버스트하게 작용함

    - 확실히, Front view로 학습을 시켜서 Front view의 오차 적고, 비만인 사람이 더 잘 됨

    - 저체중에 대해서는 오차가 좀 큼

    - 이 문제를 해결하기 위해서는 저체중인 데이터를 더 구축하고, 서로 다른 각도의 데이터를 더 구축하면 좋을 듯 함

    Jin, Z., Huang, J., Wang, W., Xiong, A., & Tan, X. (2022). Estimating Human Weight from A Single Image. IEEE Transactions on Multimedia.

     

    컨클루전 생략 빠이-

    댓글

Designed by Tistory.