
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 영어로 이루어진 영화 리뷰 데이터를 분류하겠다. 우리가 접할 수 있는 영화 리뷰 분류 문제들이 많은데, 그 중에서 캐글 대회의 데이터를 활용해 실습을 해보자. Bag of Words Meets Bags of Popcorn Use Google's Word2Vec for movie reviews www.kaggle.com 1. 문제소개 영어 텍스트 분류 문제중 캐글의 대회인 워드 팝콘 문제를 활용할 것이다. 이 문제를 해결하면서 텍스트 분류 기술을 알아보겠다. 먼저 워드 팝콘이 어떤 문제인지 알아보자. 1) 워드 팝콘 워드 팝콘은 인터넷 데이터베이스(IMDB)에서 ..

본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 1. 기계 이해 기계 이해(Machine Cimprehension)는 기계가 어떤 텍스트에 대한 정보를 학습하고 사용자가 질의를 던졌을 때 그에 대해 응답하는 문제다. 다시 말하자면 기계가 텍스트를 이해하고 논리적 ㅌ추론을 할 수 있는지 데이터 학습을 통해 보는 것이다. 텍스트 이순신(李舜臣, 1545년 4월 28일 ~ 1598년 12월 16일 (음력 11월 19일))은 조선 중기의 무신이었다. 본관은 덕수(德水), 자는 여해(汝諧), 시호는 충무(忠武)였으며, 한성 출신이었다. 문반 가문 출신으로 1576년(선조 9년) 무과(武科)에 급제[1]하여 그 관직이 ..
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 언어 생성이란 무엇일까? 사람이 언어를 생성하는 과정을 생각해보자. 일반적으로 글을 쓰거나 말을 할 때 어떠한 주제에 대한 목적 의식을 가지고 언어에 맞는 문법과 올바른 단어를 사용해 문장을 생성한다. 신문 기사가 될 수도 있고, 상대방과의 대화, 문장 요약 등 언어를 활용해 우리는 서로 "소통(Communication)"하면서 살아간다. 그렇다면 컴퓨터가 상대방의 대화를 이해하고 글도 쓴다면 어떨까? 로봇에게만 적용해도 우리의 삶은 현재와는 다른 세상이 될 것이다. 실제로 기술이 진보하면서 이와 관련된 사례들이 조금씩 나오고 있다. 하지만 일반적으로 감정 및 ..

본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 이 노래 누가 만들었어? 지금 나오는 노래의 작곡가가 누구야? 위 두 문장은 똑같은 의미이지만 인공지능에게는 단순하게 다른 문장으로 인식될 것이다. 따라서 각기 다른 답을 만들어야 하는데, 좀 더 효율성을 위해 비슷한 의미를 가진 문장에 대해서는 같은 대답을 준비할 수 있을 것이다. 이때 문장이 유사한지 측정해야 하며, 텍스트 유사도(Text Similarity) 측정 방법을 사용하면 된다. 텍스트 유사도란 말 그대로 텍스트가 얼마나 유사한지를 표현하는 방식 중 하나이다. 앞에서 예로 든 두 문장의 경우 다른 구조의 문장이지만 의미는 비슷하기 때문에 두 문장의 ..

본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 텍스트 분류(Text Classification)는 자연어 처리 문제 중 가장 대표적이고 많이 접하는 문제다. 자연어 처리 기술을 활용해 특정 텍스트를 사람들이 정한 몇 가지 범주(Class)중 어느 범주에 속하는지 분류하는 문제다. 분류해야 할 범주의 수에 따라 문제를 구분하기도 하는데 보통 2가지 범주에 대해 구분하는 문제를 이진 분류(Binary classfication) 무제라 한다. 그리고 3개 이상의 범주에 대해 분류하는 문제를 통틀어 다중 범주 분류(Multi class classfication) 문제라 한다. 텍스트 분류 문제는 우리 주변에서 쉽게..

본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 자연어 처리의 경우 크게 어떤 문제를 해결하려고 하느냐에 따라 분류되는데, 이떤 문제가 있고 각 문제에 대한 자세한 내용을 먼저 알아보자. 자연어 처리에는 크게 4가지의 문제가 있다. 4가지의 문제란 텍스트 분류, 텍스트 유사도, 텍스트 생성, 기계 이해로서 자연어 처리의 핵심 문제에 해당한다. 앞의 4가지 문제에 대해 알아보기 전에 단어 표현이라는 분야에 대해 먼저 알아본다. 단어 표현은 모든 자연어 처리 문제의 기본 바탕이 되는 개념이다. 자연어를 어떻게 표현할지 정하는 것이 각 문제를 해결하기 위한 출발점이다. 따라서 먼저 단어를 표현하는 방법에 대해 배운..

본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 자연어 처리 문제에 도움을 줄 수 있는 파이썬 라이브러리를 소개하겠다. 계산을 위한 numpy, 데이터 분석을 위한 pandas, 시각화 도구인 matplotlib, 정규표현식을 사용하기 위한 Re, 그리고 HTML을 다루기 위한 Beautiful Soup까지 총 5가지 라이브버리에 대해 알아보자. 1. 넘파이 numpy 넘파이(numpy)는 빠르고 효율적인 계산을 위해 만들어진 파이썬 라이브러리이다. 넘파이는 고성능의 다차원 배결 객체와 이러한 배열을 계산할 효율적인 도구를 제공한다. 넘파이의 핵심은 ndarray 객체이다. 이 객체는 동일한 자료형을 가지는 ..

본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 자연어 처리를 위해서는 우선 텍스트에 대한 정보를 단위별로 나누는 것이 일반적이다. 예측해야 할 정보(문장 혹은 발화)를 하나의 특정 기본 단위로 자르는 것을 토크나이징이라고 한다. 파이썬을 이용하면 이러한 작업을 라이브러리를 통해 간편하게 처리할 수 있다. 토크나이징을 할 때는 언어의 특징에 따라 처리 방법이 달라지므로 영어 토크나이징과 한글 토크나이징을 구분해서 알아보자. 1. 영어 토크나이징 라이브러리 영어의 경우 NLTK(Natural Language Toolkit)와 Spacy가 토크나이징에 많이 쓰이는 대표적인 라이브러리이다. 1) NLTK (Natu..
- Total
- Today
- Yesterday
- 알고스팟
- 젠심
- 심리학
- Python
- Mikolov
- 단어표현
- word2vec
- django
- 텍스트분류
- 코딩하는 신학생
- 분석심리학
- 인공지능
- web
- word vector
- CBOW
- text classification
- WebProgramming
- word embedding
- 자연어처리
- AI
- Skip-gram
- NLP
- lstm
- 그림자
- Tutorial
- 코딩테스트
- 당신의 그림자가 울고 있다.
- 융
- 로버트존슨
- Polls
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |