이미지 캡셔닝

논문 공부방법

원하는 주제 검색 (Image Captioning)

Papers with Code - Browse the State-of-the-Art in Machine Learning
paper, code 등 검색
youtube에서 논문 review하는 것을 보고 공부
그 후에 논문을 훑어본다

읽어 볼 것

Show and Tell

Show and Tell (이미지 캡셔닝)
- 2015 (처음 나온 거)
- 2016 (위의 것에서 Attention 매커니즘 추가)
Image Captioning with Semantic Attention (2016)

You_Image_Captioning_With_CVPR_2016_paper.pdf

[논문 리뷰]Image Captioning with Semantic Attention

Image captioning with visual attention | TensorFlow Core
그외 다른 논문

이미지 캡셔닝 방법의 성능 비교.pdf

[17.10.HCLT]LSTM을 이용한 한국어 이미지 캡션 생성.pdf

000000159379_20200918000025.pdf
읽을 만한 것

[Tensorflow] im2txt로 이미지를 문장으로 묘사해보기

케라스와 함께하는 쉬운 딥러닝 (21) - 순환형 신경망(RNN) 모델 만들기 4

[밑바닥부터 시작하는 딥러닝2] 7장. RNN을 사용한 문장 생성

Image Captioning with Keras - "Teaching Computers to describe pictures"

Automatic Image Captioning with CNN & RNN
일반적으로 Image Captioning을 하는 모델은 다음과 같은 구조를 사용하는 것 같다.
1. CNN에서 이미지 학습 (GoogleNet, RasNet)
2. FC Layer를 제거 (softmax를 통해서 classification하는 부분)
3. 2번에서 나온 Feature Vector를 linear하게 만들어 준 후에 LSTM 에 전달
4. LSTM에서 문장 학습
생각해 볼 점
1. 문장이 생성된다고 했을 때, 이미지에 대한 해시태그의 경우는??
  - 형태소 분석 뿐만아니라 어떠한 태그(명사 혹은 동사)에 대한 정보만 가지고 와야한다. 일반적인 형태소 분석을 통해서 토큰화를 수행했을 때 데이터는 품사에 대한 정보는 갖고 있지 않는다.
  - 그래서 자연어처리반의 김한울님으로부터 다음과 같은 라이브러리를 찾을 수 있었다. 한국어 분석을 위한 pure python code이라고 한다. 한국어 만세
    
    lovit/soynlp
  - 이렇게 한다면 조사와 같은 부분을 제외하고 특정 명사에 대한 정보들만 가져 올 수 있을 것
    - Noun Extractor Ver 1, 2
2. 위에서 사용하는 기본적인 모델 제외한 추가로 확인해볼 내용
  - 최신 논문 검색
    
    Papers with Code - Latest papers with code
    
    상위에는 EfficientNet을 사용하는 것이 있고..
  - 그외 참고할? Image Captioning 카테고리로 정리되어 있는 글
    
    Papers with Code - Image Captioning
3. 기존 외국의 논문에서는 COCO Caption데이터셋을 사용했다.
  
  330,000개의 이미지 * 이미지당 5개의 caption
  
  91개의 카테고리..
  
  이 때의 Caption생성 정확도는 BLEU-4 Score 41.7.. (BLEU??)
4. Label데이터를 어떻게 만들 것인가?
  
  기존에 coco caption데이터셋의 경우 사진을 학습시키고 라벨로 caption을 전달해서 학습을 시켰다.
  - 무엇보다 기존 데이터셋은 영어이고 한국어일때 어떤 부분이 바뀌는지
  - Caption을 생성해야 한다면?
    
    아마.. 모든 데이터에 일일이 짧은 문장을 COCO Caption 데이터처럼 최대 5문장은 만들어야 할 듯
  - Caption(짧은 문장)이 아니라, 한국어로 '단어, 단어, 단어' 이런식으로 학습을 하면 1번에서 명사만 추출하는 것이 아니어도 '단어, 단어, 단어' 이런식으로 비슷한 순위들이 출력이 될지
  +. 만약 위의 방법처럼 문장을 생성하는 것이 아닌 단어들을 뽑아내는 것이라면? 꼭 RNN을 사용해야만 하는걸까?
  
  ⇒ CNN만 사용해서도 Classification을 한다면?
  
  ⇒ 반면에 형용사같은 부분 ( 따끈따끈한 + 음식 )은 RNN..?
  
  ⇒ 따끈따끈한, 팥, 호빵 과 같은 순서가 필요하다면 RNN이 필요 할 것

논문 공부방법

읽어 볼 것

데이터셋