'NLP, LLM, Multi-modal/논문' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록NLP, LLM, Multi-modal/논문 (1)

JINWOOJUNG

[ VLM ] VQA: Visual Question Answering

PapaerVQA: Visual Question Answering IntroductionImage&Video Captioning 분야에서의 Computer Vision&Natural Language Processing&Knowledge Representation을 결합한한 연구는 최근들어 많이 진행되고 있다. 기존 Image Captioning Task의 경우 Image의 완벽한 이해 없이도 간단한 Word Statistics만으로도 SOTA 성능을 보이는 것으로 보아 이미지의 깊은 이해 및 추론 성능이 불필요함을 의미한다. 즉, Image Captioning Task가 생각보다 "AI-complete"하지 않음을 시사한다.Knowledge Representation : 인간의 지식, 정보 등을 기계가 ..

NLP, LLM, Multi-modal/논문 2025. 4. 19. 16:22

이전 Prev 1 Next 다음

목록NLP, LLM, Multi-modal/논문 (1)

JINWOOJUNG

티스토리툴바