Efficient Estimation of Word Representations in Vector Space 0. 들어가는 말 word2vec으로 잘 알려진 두 편의 논문 중 한 편입니다. 기존에 Neural NET Language Model과 Recuurnct Neural Net Languege Model 기반의 Word Representations의 시간복잡도를 분석하고 보다 더 효과적인 Word Representation 방법인 CBoW와 Skip-Gram을 제안하고 있습니다. 가장 인상적인 부분은 본 논문에서 제시하는 단어 표현의 방법으로 king - man + woman = queen 이러한 연산이 가능하다는 것입니다. 1. Introduction 현재(논문 발표 당시 2013년) NLP 시스템..
본 포스팅은 바라가브 스리니바사 디지칸, 『자연어처리와 컴퓨터언어학』, 마창수 역, 에이콘을 참고하여 만들어졌습니다. http://acornpub.co.kr/book/nlp-computational-linguistics 1. 젠심 소개 벡터는 더 나은 머신 러닝 분석을 위한 데이터를 준비하고 전처리하는 단계에 해당하는 내용이다. 텍스트와데이터를 준비하는 과정에 집중하는 것처럼 느껴질 수 있지만 이전에 말했듯이 "쓰레기가 입력되면 쓰레기가 출력된다"는 것을 기억하자. 텍스트를 머신러닝의 입력으로 사용하기 위해 텍스트를 숫자로 표현하는 방법, 특히 문자열을 벡터로 전환하는 방법을 알아본다. 표현(representations)과 변환에 대해 이야기할 때 BOW, TF-IDF, LSI 및 최근 인기를 끌고 있는..
본 포스팅은 바라가브 스리니바사 디지칸, 『자연어처리와 컴퓨터언어학』, 마창수 역, 에이콘을 참고하여 만들어졌습니다. http://acornpub.co.kr/book/nlp-computational-linguistics 1. 토픽 모델링의 이해 토픽 모델은 텍스트에서 특정 토픽에 관한 정보를 포함하고 있는 확률 모델, 토픽은 텍스트에서 표현하고 있는 아이디어나 주제를 말한다. 예를 들어 뉴스 기사의 말뭉치를 다루고 있다면 가능한 주제는 날씨, 정치, 스포츠, 경제 등이 될 것이다. 왜 텍스트 처리 영역에서 토픽 모델이 중요할까? 전통적으로 IR과 검색 기술은 유사성과 관계성을 식별하기 위해 단어를 이용한다. 이제 단어 대신 토픽을 이용해 광법위하게 검색하고 파일을 정리할 수 있다. 하지만 토픽이 의미하는..
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 영어로 이루어진 영화 리뷰 데이터를 분류하겠다. 우리가 접할 수 있는 영화 리뷰 분류 문제들이 많은데, 그 중에서 캐글 대회의 데이터를 활용해 실습을 해보자. Bag of Words Meets Bags of Popcorn Use Google's Word2Vec for movie reviews www.kaggle.com 1. 문제소개 영어 텍스트 분류 문제중 캐글의 대회인 워드 팝콘 문제를 활용할 것이다. 이 문제를 해결하면서 텍스트 분류 기술을 알아보겠다. 먼저 워드 팝콘이 어떤 문제인지 알아보자. 1) 워드 팝콘 워드 팝콘은 인터넷 데이터베이스(IMDB)에서 ..
본 포스팅은 edwith에서 제공되는 딥러닝을 이용한 자연어처리 강좌를 참고하여 만들어졌습니다. https://www.edwith.org/deepnlp/joinLectures/17363 1. How to represent sentence & token? A sentence is a variable sequence of tokens Each token could be any one from a vocabulary Once the vocabulary is fixed and edcoding is done, a sentence or text is just a sequence of 'integer indices'. 1) one-hot encoding 해당 token에 해당하는 index만 1로 설정되고 나머지 i..
본 포스팅은 edwith에서 제공되는 딥러닝을 이용한 자연어처리 강좌를 참고하여 만들어졌습니다. https://www.edwith.org/deepnlp/joinLectures/17363 1) Supervised Learning(Machin Learning) 이란? 기존의 개발 방법은 문제를 정확하게 specification하고 그러한 문제를 풀어가는 알고리즘을 찾는 것이었다. 하지만 Machin Learning은 문제가 정확하게 specification되어 있지 않고, 수 많은 데이터와 그 데이터데 대한 정답 label이 주어진다. 즉, 정답이 주어진 데이터로부터 알고리즘을 만든다! 2) 개발자가 해야 할 것은? How do we decide/design a hypothesis set? How do we..
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 1. 기계 이해 기계 이해(Machine Cimprehension)는 기계가 어떤 텍스트에 대한 정보를 학습하고 사용자가 질의를 던졌을 때 그에 대해 응답하는 문제다. 다시 말하자면 기계가 텍스트를 이해하고 논리적 ㅌ추론을 할 수 있는지 데이터 학습을 통해 보는 것이다. 텍스트 이순신(李舜臣, 1545년 4월 28일 ~ 1598년 12월 16일 (음력 11월 19일))은 조선 중기의 무신이었다. 본관은 덕수(德水), 자는 여해(汝諧), 시호는 충무(忠武)였으며, 한성 출신이었다. 문반 가문 출신으로 1576년(선조 9년) 무과(武科)에 급제[1]하여 그 관직이 ..
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 언어 생성이란 무엇일까? 사람이 언어를 생성하는 과정을 생각해보자. 일반적으로 글을 쓰거나 말을 할 때 어떠한 주제에 대한 목적 의식을 가지고 언어에 맞는 문법과 올바른 단어를 사용해 문장을 생성한다. 신문 기사가 될 수도 있고, 상대방과의 대화, 문장 요약 등 언어를 활용해 우리는 서로 "소통(Communication)"하면서 살아간다. 그렇다면 컴퓨터가 상대방의 대화를 이해하고 글도 쓴다면 어떨까? 로봇에게만 적용해도 우리의 삶은 현재와는 다른 세상이 될 것이다. 실제로 기술이 진보하면서 이와 관련된 사례들이 조금씩 나오고 있다. 하지만 일반적으로 감정 및 ..
- Total
- Today
- Yesterday
- WebProgramming
- 코딩하는 신학생
- text classification
- 단어표현
- 코딩테스트
- 심리학
- 당신의 그림자가 울고 있다.
- 젠심
- web
- word vector
- 자연어처리
- Mikolov
- 분석심리학
- Skip-gram
- CBOW
- 그림자
- 융
- 알고스팟
- Python
- Tutorial
- Polls
- 텍스트분류
- lstm
- django
- AI
- 로버트존슨
- 인공지능
- word embedding
- word2vec
- NLP
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |