Simple task-specific bilingual word embeddings 1. Summary 본 논문에서는 이종간 언어에 대한 Word Embedding 방법을 다루고 있습니다. 본 논문에서 제시하는 방법론의 장점으로는 (a) word embedding algorithm에 독립적이고 (b) 병렬적인 데이터를 필요로 하지 않는다는 것에 있습니다. 본 논문의 방법론으로 이종간 언어의 POS tagging에 대한 결과를 실험 검증하였습니다. 2. Methods Input으로 source corpus, target corpus, bilingual equivqlences R을 받습니다. 이때 source corpus에 있는 word w를 target corpus에 있는 w'대체하는데, w와 w'는 R에..
본 포스팅은 바라가브 스리니바사 디지칸, 『자연어처리와 컴퓨터언어학』, 마창수 역, 에이콘을 참고하여 만들어졌습니다. http://acornpub.co.kr/book/nlp-computational-linguistics 1. 젠심 소개 벡터는 더 나은 머신 러닝 분석을 위한 데이터를 준비하고 전처리하는 단계에 해당하는 내용이다. 텍스트와데이터를 준비하는 과정에 집중하는 것처럼 느껴질 수 있지만 이전에 말했듯이 "쓰레기가 입력되면 쓰레기가 출력된다"는 것을 기억하자. 텍스트를 머신러닝의 입력으로 사용하기 위해 텍스트를 숫자로 표현하는 방법, 특히 문자열을 벡터로 전환하는 방법을 알아본다. 표현(representations)과 변환에 대해 이야기할 때 BOW, TF-IDF, LSI 및 최근 인기를 끌고 있는..
본 포스팅은 바라가브 스리니바사 디지칸, 『자연어처리와 컴퓨터언어학』, 마창수 역, 에이콘을 참고하여 만들어졌습니다. http://acornpub.co.kr/book/nlp-computational-linguistics 1. 토픽 모델링의 이해 토픽 모델은 텍스트에서 특정 토픽에 관한 정보를 포함하고 있는 확률 모델, 토픽은 텍스트에서 표현하고 있는 아이디어나 주제를 말한다. 예를 들어 뉴스 기사의 말뭉치를 다루고 있다면 가능한 주제는 날씨, 정치, 스포츠, 경제 등이 될 것이다. 왜 텍스트 처리 영역에서 토픽 모델이 중요할까? 전통적으로 IR과 검색 기술은 유사성과 관계성을 식별하기 위해 단어를 이용한다. 이제 단어 대신 토픽을 이용해 광법위하게 검색하고 파일을 정리할 수 있다. 하지만 토픽이 의미하는..
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 영어로 이루어진 영화 리뷰 데이터를 분류하겠다. 우리가 접할 수 있는 영화 리뷰 분류 문제들이 많은데, 그 중에서 캐글 대회의 데이터를 활용해 실습을 해보자. Bag of Words Meets Bags of Popcorn Use Google's Word2Vec for movie reviews www.kaggle.com 1. 문제소개 영어 텍스트 분류 문제중 캐글의 대회인 워드 팝콘 문제를 활용할 것이다. 이 문제를 해결하면서 텍스트 분류 기술을 알아보겠다. 먼저 워드 팝콘이 어떤 문제인지 알아보자. 1) 워드 팝콘 워드 팝콘은 인터넷 데이터베이스(IMDB)에서 ..
본 포스팅은 edwith에서 제공되는 딥러닝을 이용한 자연어처리 강좌를 참고하여 만들어졌습니다. https://www.edwith.org/deepnlp/joinLectures/17363 1. How to represent sentence & token? A sentence is a variable sequence of tokens Each token could be any one from a vocabulary Once the vocabulary is fixed and edcoding is done, a sentence or text is just a sequence of 'integer indices'. 1) one-hot encoding 해당 token에 해당하는 index만 1로 설정되고 나머지 i..
본 포스팅은 edwith에서 제공되는 딥러닝을 이용한 자연어처리 강좌를 참고하여 만들어졌습니다. https://www.edwith.org/deepnlp/joinLectures/17363 1) Supervised Learning(Machin Learning) 이란? 기존의 개발 방법은 문제를 정확하게 specification하고 그러한 문제를 풀어가는 알고리즘을 찾는 것이었다. 하지만 Machin Learning은 문제가 정확하게 specification되어 있지 않고, 수 많은 데이터와 그 데이터데 대한 정답 label이 주어진다. 즉, 정답이 주어진 데이터로부터 알고리즘을 만든다! 2) 개발자가 해야 할 것은? How do we decide/design a hypothesis set? How do we..
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 1. 기계 이해 기계 이해(Machine Cimprehension)는 기계가 어떤 텍스트에 대한 정보를 학습하고 사용자가 질의를 던졌을 때 그에 대해 응답하는 문제다. 다시 말하자면 기계가 텍스트를 이해하고 논리적 ㅌ추론을 할 수 있는지 데이터 학습을 통해 보는 것이다. 텍스트 이순신(李舜臣, 1545년 4월 28일 ~ 1598년 12월 16일 (음력 11월 19일))은 조선 중기의 무신이었다. 본관은 덕수(德水), 자는 여해(汝諧), 시호는 충무(忠武)였으며, 한성 출신이었다. 문반 가문 출신으로 1576년(선조 9년) 무과(武科)에 급제[1]하여 그 관직이 ..
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 언어 생성이란 무엇일까? 사람이 언어를 생성하는 과정을 생각해보자. 일반적으로 글을 쓰거나 말을 할 때 어떠한 주제에 대한 목적 의식을 가지고 언어에 맞는 문법과 올바른 단어를 사용해 문장을 생성한다. 신문 기사가 될 수도 있고, 상대방과의 대화, 문장 요약 등 언어를 활용해 우리는 서로 "소통(Communication)"하면서 살아간다. 그렇다면 컴퓨터가 상대방의 대화를 이해하고 글도 쓴다면 어떨까? 로봇에게만 적용해도 우리의 삶은 현재와는 다른 세상이 될 것이다. 실제로 기술이 진보하면서 이와 관련된 사례들이 조금씩 나오고 있다. 하지만 일반적으로 감정 및 ..
- Total
- Today
- Yesterday
- 알고스팟
- WebProgramming
- text classification
- 그림자
- Polls
- web
- NLP
- Skip-gram
- word vector
- word embedding
- 분석심리학
- lstm
- 단어표현
- Python
- AI
- word2vec
- 코딩하는 신학생
- 텍스트분류
- 코딩테스트
- 젠심
- 융
- CBOW
- django
- 인공지능
- 로버트존슨
- Tutorial
- 자연어처리
- 당신의 그림자가 울고 있다.
- 심리학
- Mikolov
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |