Distributed Representations of Words and Phrases and their Compositionality Abstract 최근 소개된 Skip-gram 모델은 단어의 Syntactic, Sementic 관계를 효율적으로 표현 할 수 있는 모델이다. 본 논문에서는 벡터의 퀄리티와 training의 속도를 향상시키는 방안에 대하여 논의한다. 자주 사용되는 word에 대한 subsampling을 통해 상당한 속도 향상과 더욱 규칙적인 단어 표현을 할 수 있게 되었다. 또한 계층적인 softmax의 대안을 제시한다. 기존의 단어 표현의 한계는 단어 순서에 대한 표현과 관용구의 표현이 불가능하다는 것이었다. 가령, 'Canada'와 'Air'의 의미는 쉽게 결합되지 못 하고, 'Ai..
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 자연어 처리의 경우 크게 어떤 문제를 해결하려고 하느냐에 따라 분류되는데, 이떤 문제가 있고 각 문제에 대한 자세한 내용을 먼저 알아보자. 자연어 처리에는 크게 4가지의 문제가 있다. 4가지의 문제란 텍스트 분류, 텍스트 유사도, 텍스트 생성, 기계 이해로서 자연어 처리의 핵심 문제에 해당한다. 앞의 4가지 문제에 대해 알아보기 전에 단어 표현이라는 분야에 대해 먼저 알아본다. 단어 표현은 모든 자연어 처리 문제의 기본 바탕이 되는 개념이다. 자연어를 어떻게 표현할지 정하는 것이 각 문제를 해결하기 위한 출발점이다. 따라서 먼저 단어를 표현하는 방법에 대해 배운..
- Total
- Today
- Yesterday
- 분석심리학
- Polls
- Mikolov
- CBOW
- 당신의 그림자가 울고 있다.
- WebProgramming
- 심리학
- Tutorial
- word embedding
- 융
- text classification
- Skip-gram
- web
- 코딩하는 신학생
- 알고스팟
- word vector
- Python
- django
- 로버트존슨
- NLP
- 텍스트분류
- 코딩테스트
- 젠심
- 인공지능
- word2vec
- AI
- 그림자
- 단어표현
- 자연어처리
- lstm
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |