일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- dfs
- ubuntu
- two-stage detector
- C++
- 머신러닝
- image processing
- AlexNet
- real-time object detection
- 딥러닝
- VQA
- MySQL
- machine learning
- hm3d
- YoLO
- CNN
- LSTM
- 강화학습
- opencv
- dynamic programming
- r-cnn
- Python
- NLP
- deep learning
- DP
- Reinforcement Learning
- 백준
- Mask Processing
- 그래프 이론
- BFS
- eecs 498
- Today
- Total
목록분류 전체보기 (161)
JINWOOJUNG

본 포스팅은 [딥 러닝을 이용한 자연어 처리 입문]을 기반으로 공부한 내용을 정리하는 포스팅입니다. https://wikidocs.net/book/2155정규화 기법 중 동일한 의미지만 표기가 다른 단어를 통합하는 기법인 어간 추출(Stemming)과 표제어 추출(Lemmatization)에 대해서 알아보자. 표제어 추출(Lemmatization)표제어(Lemma)는 한국어로 '표제어','기본 사전형 단어'의 의미를 가진다. 표제어 추출은 단어들로부터 표제어를 찾아가는 과정으로, 단어들이 다른 형태를 가지더라도, 그 뿌리(기본) 단어를 찾아서 단어의 수를 줄이는 과정이다. 표제어 추출을 하는 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진행하는 것이다. 형태소는 '의미를 가진 가장 작은 단위'라..

본 포스팅은 [딥 러닝을 이용한 자연어 처리 입문]을 기반으로 공부한 내용을 정리하는 포스팅입니다. https://wikidocs.net/book/2155 Tokenization 전, 후에는 텍스트 데이터를 용도에 맞게 정제(Cleaning) 및 정규화(Normalization)을 수행하게 된다. 정제(Cleaning) : Corpus로 부터 Noise 제거정규화(Normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦 Cleaning의 경우 Tokenization에 방해가 되는 요소를 제거하기 위해 Tokenization 전에도 사용되지만, 후에도 존재하는 Noise 제거 목적으로 사용된다. Cleaning불필요한 단어 제거Cleaning 에서의 Noise Data는 자..

들어가며하나의 Repository에서 여러명의 개발자가 개발하게 된다면, 일반적으로 각자의 Branch에서 개발한 뒤, main Branch로 병합하게 된다. 위 과정에서 가장 많이 일어나는 것이 충돌 문제이다. 이 과정에서 발생할 수 있는 문제들과 각각의 Branch에서 개발한 뒤 하나의 Branch로 병합(Merge) 하는 방법을 알아보자. BranchBranch는 기존의 코드를 건드리지 않고 따로 개발할 수 있는 갈래를 의미한다. 일반적으로 main Branch에는 안정된 코드가 존재하고, 각각의 Branch에서 개발한 후 main Branch로 Merge하게 된다. Branch 목록을 확인하기 위해서는 해당 Repository에서 git branch 명령어를 통해 확인할 수 있다. 현재 mai..

본 포스팅은 [딥 러닝을 이용한 자연어 처리 입문]을 기반으로 공부한 내용을 정리하는 포스팅입니다. https://wikidocs.net/book/21552D, 3D Data(Image, PCD)를 처리하는 과정에서 전처리가 요구되는 것처럼, 자연어 처리에서도 전처리가 필요하다. 자연어 처리에서의 전처리는 목적에 맞게 토큰화(Tokenization)&정제(Cleaning)&정규화(Normalization)을 수행하게 된다. 본 포스팅에서는 Tokenization에 대해서 알아보자. Word Tokenization자연어 처리에서 처리하는 데이터를 코퍼스(Corpus)라 한다. Corpus말뭉치자연어 처리에서 특정 목적에 따라 수집된 텍스트 데이터주어진 코퍼스에서 토큰(Token)이라 불리는 단위로 나누는..

본 포스팅은 [딥 러닝을 이용한 자연어 처리 입문]을 기반으로 공부한 내용을 정리하는 포스팅입니다. https://wikidocs.net/book/2155 자연어 처리를 위한 텍스트 데이터를 전처리 하기 위해서는 몇몇 자연어 패키지가 요구된다. 이번 포스팅은 NLTK, KoNLPy 패키지를 설치 해 보자. 개발환경은 다음과 같다. 개발환경OS : Ubuntu 20.04GPU : NVIDIA GeForce RTX 4070 NLTKNLTK(Natural Language Tookit)은 자연어 처리를 쉽게 다룰 수 있는 라이브러리이다. Python 기반 라이브러리이기에 Python만 설치되어 있으면 설치하여 바로 사용이 가능하다. pip3 install nltk NLTK를 통해 데이터 전처리는 NLTK T..

들어가며특정한 시스템을 구현하기 위해서는 다수의 개발자가 하나의 프로젝트 내에서 협업하는 경우가 많다. 따라서 협업을 위해서 다양한 Tool을 사용하지만 그 중 가장 실용적이고 많이 사용되는 것이 Github이다. 이전에도 Git을 사용해서 개발 해 왔지만, 앞으로는 Git을 사용하면서 유용하게 사용한 것들을 정리 해 보고자 한다. Git? GitHub?Git Git은 소스 코드의 버전 관리를 위한 분산형 버전 관리 시스템(DVCS, Distributed Version Control System)으로, 프로젝트의 수정 이력, 버전 변경, 협업 내역 등을 추적할 수 있도록 도와주는 도구다.간단히 말하면, 프로젝트에 발생하는 모든 변화들을 시간 순으로 저장하고, 언제든지 이전 상태로 돌아갈 수 있게 해준다..

PapaerPointPillars Introduction 자율주행차는 차량, 보행자, Cyclist와 같은 동적 객체를 검출해야한다. LiDAR 3D PointCloud Data(PCD)를 기반으로 한 Object Detection Task는 Bottom-up Pipeline을 통해 연구되어왔다. 즉, Hand-crafted Feature를 기반으로 지면 제거 후 객체에 대한 Clustering, Classification이 진행된다. 단순히 Hand-crafted Feature만으론 한계가 있기 때문에 Computer Vision 분야의 Deep Learning Methods가 도입되면서 PCD에 적용하려고 했지만, Sparse하고 3D 구조인 PCD의 특성 상 2D Image에 적용되는 Convol..

본 포스팅은 Michigan Univ.의 EECS 498 강의를 수강하면서 공부한 내용을 정리하는 포스팅입니다.https://jinwoo-jung.tistory.com/147 [EECS 498] Lecture 16: Recurrent Neural Networks본 포스팅은 Michigan Univ.의 EECS 498 강의를 수강하면서 공부한 내용을 정리하는 포스팅입니다.Introduction 기존까지의 Neural Networks를 활용한 Task는 Image 기반의 Calssification, Detection, Segmentation이 주를jinwoo-jung.comIntroduction지난시간에 학습한 Seq2Seq를 자세히 살펴보자. Seq2Seq는 Machine Translation Task에 ..