일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- MinHeap
- LSTM
- YoLO
- AlexNet
- image processing
- dynamic programming
- MySQL
- r-cnn
- Mask Processing
- deep learning
- ubuntu
- eecs 498
- CNN
- 그래프 이론
- Reinforcement Learning
- DP
- dfs
- 강화학습
- BFS
- 딥러닝
- 머신러닝
- two-stage detector
- opencv
- real-time object detection
- One-Stage Detector
- NLP
- machine learning
- C++
- 백준
- Python
- Today
- Total
목록2025/04/14 (2)
JINWOOJUNG

본 포스팅은 [딥 러닝을 이용한 자연어 처리 입문]을 기반으로 공부한 내용을 정리하는 포스팅입니다. https://wikidocs.net/book/2155정규화 기법 중 동일한 의미지만 표기가 다른 단어를 통합하는 기법인 어간 추출(Stemming)과 표제어 추출(Lemmatization)에 대해서 알아보자. 표제어 추출(Lemmatization)표제어(Lemma)는 한국어로 '표제어','기본 사전형 단어'의 의미를 가진다. 표제어 추출은 단어들로부터 표제어를 찾아가는 과정으로, 단어들이 다른 형태를 가지더라도, 그 뿌리(기본) 단어를 찾아서 단어의 수를 줄이는 과정이다. 표제어 추출을 하는 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진행하는 것이다. 형태소는 '의미를 가진 가장 작은 단위'라..

본 포스팅은 [딥 러닝을 이용한 자연어 처리 입문]을 기반으로 공부한 내용을 정리하는 포스팅입니다. https://wikidocs.net/book/2155 Tokenization 전, 후에는 텍스트 데이터를 용도에 맞게 정제(Cleaning) 및 정규화(Normalization)을 수행하게 된다. 정제(Cleaning) : Corpus로 부터 Noise 제거정규화(Normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦 Cleaning의 경우 Tokenization에 방해가 되는 요소를 제거하기 위해 Tokenization 전에도 사용되지만, 후에도 존재하는 Noise 제거 목적으로 사용된다. Cleaning불필요한 단어 제거Cleaning 에서의 Noise Data는 자..