Distributed Representations of Words and Phrases and their Compositionality Abstract 최근 소개된 Skip-gram 모델은 단어의 Syntactic, Sementic 관계를 효율적으로 표현 할 수 있는 모델이다. 본 논문에서는 벡터의 퀄리티와 training의 속도를 향상시키는 방안에 대하여 논의한다. 자주 사용되는 word에 대한 subsampling을 통해 상당한 속도 향상과 더욱 규칙적인 단어 표현을 할 수 있게 되었다. 또한 계층적인 softmax의 대안을 제시한다. 기존의 단어 표현의 한계는 단어 순서에 대한 표현과 관용구의 표현이 불가능하다는 것이었다. 가령, 'Canada'와 'Air'의 의미는 쉽게 결합되지 못 하고, 'Ai..
Efficient Estimation of Word Representations in Vector Space 0. 들어가는 말 word2vec으로 잘 알려진 두 편의 논문 중 한 편입니다. 기존에 Neural NET Language Model과 Recuurnct Neural Net Languege Model 기반의 Word Representations의 시간복잡도를 분석하고 보다 더 효과적인 Word Representation 방법인 CBoW와 Skip-Gram을 제안하고 있습니다. 가장 인상적인 부분은 본 논문에서 제시하는 단어 표현의 방법으로 king - man + woman = queen 이러한 연산이 가능하다는 것입니다. 1. Introduction 현재(논문 발표 당시 2013년) NLP 시스템..
본 포스팅은 edwith에서 제공되는 딥러닝을 이용한 자연어처리 강좌를 참고하여 만들어졌습니다. https://www.edwith.org/deepnlp/joinLectures/17363 1. How to represent sentence & token? A sentence is a variable sequence of tokens Each token could be any one from a vocabulary Once the vocabulary is fixed and edcoding is done, a sentence or text is just a sequence of 'integer indices'. 1) one-hot encoding 해당 token에 해당하는 index만 1로 설정되고 나머지 i..
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 자연어 처리의 경우 크게 어떤 문제를 해결하려고 하느냐에 따라 분류되는데, 이떤 문제가 있고 각 문제에 대한 자세한 내용을 먼저 알아보자. 자연어 처리에는 크게 4가지의 문제가 있다. 4가지의 문제란 텍스트 분류, 텍스트 유사도, 텍스트 생성, 기계 이해로서 자연어 처리의 핵심 문제에 해당한다. 앞의 4가지 문제에 대해 알아보기 전에 단어 표현이라는 분야에 대해 먼저 알아본다. 단어 표현은 모든 자연어 처리 문제의 기본 바탕이 되는 개념이다. 자연어를 어떻게 표현할지 정하는 것이 각 문제를 해결하기 위한 출발점이다. 따라서 먼저 단어를 표현하는 방법에 대해 배운..
- Total
- Today
- Yesterday
- 당신의 그림자가 울고 있다.
- django
- lstm
- 코딩테스트
- 젠심
- 자연어처리
- 단어표현
- Polls
- word embedding
- word2vec
- Tutorial
- 코딩하는 신학생
- 심리학
- text classification
- web
- Python
- 융
- CBOW
- Mikolov
- NLP
- 인공지능
- 알고스팟
- WebProgramming
- word vector
- 그림자
- 로버트존슨
- 분석심리학
- Skip-gram
- 텍스트분류
- AI
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |