![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/NJ3PG/btqSATP9typ/3IkJodkPCkPr0GS4jwRIJK/img.jpg)
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 이 노래 누가 만들었어? 지금 나오는 노래의 작곡가가 누구야? 위 두 문장은 똑같은 의미이지만 인공지능에게는 단순하게 다른 문장으로 인식될 것이다. 따라서 각기 다른 답을 만들어야 하는데, 좀 더 효율성을 위해 비슷한 의미를 가진 문장에 대해서는 같은 대답을 준비할 수 있을 것이다. 이때 문장이 유사한지 측정해야 하며, 텍스트 유사도(Text Similarity) 측정 방법을 사용하면 된다. 텍스트 유사도란 말 그대로 텍스트가 얼마나 유사한지를 표현하는 방식 중 하나이다. 앞에서 예로 든 두 문장의 경우 다른 구조의 문장이지만 의미는 비슷하기 때문에 두 문장의 ..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/d2k5C8/btqSGinHGSa/lrT3AkFuKlfNwCzQmXBSV1/img.jpg)
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 텍스트 분류(Text Classification)는 자연어 처리 문제 중 가장 대표적이고 많이 접하는 문제다. 자연어 처리 기술을 활용해 특정 텍스트를 사람들이 정한 몇 가지 범주(Class)중 어느 범주에 속하는지 분류하는 문제다. 분류해야 할 범주의 수에 따라 문제를 구분하기도 하는데 보통 2가지 범주에 대해 구분하는 문제를 이진 분류(Binary classfication) 무제라 한다. 그리고 3개 이상의 범주에 대해 분류하는 문제를 통틀어 다중 범주 분류(Multi class classfication) 문제라 한다. 텍스트 분류 문제는 우리 주변에서 쉽게..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/GmLCv/btqSEMbgj2n/cRJG1rlKkL7aIVIgHMie30/img.png)
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 자연어 처리의 경우 크게 어떤 문제를 해결하려고 하느냐에 따라 분류되는데, 이떤 문제가 있고 각 문제에 대한 자세한 내용을 먼저 알아보자. 자연어 처리에는 크게 4가지의 문제가 있다. 4가지의 문제란 텍스트 분류, 텍스트 유사도, 텍스트 생성, 기계 이해로서 자연어 처리의 핵심 문제에 해당한다. 앞의 4가지 문제에 대해 알아보기 전에 단어 표현이라는 분야에 대해 먼저 알아본다. 단어 표현은 모든 자연어 처리 문제의 기본 바탕이 되는 개념이다. 자연어를 어떻게 표현할지 정하는 것이 각 문제를 해결하기 위한 출발점이다. 따라서 먼저 단어를 표현하는 방법에 대해 배운..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/cz1yQD/btqSEKp3Bwh/EooYAkVAdxM2YIrkQdVPek/img.png)
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 자연어 처리 문제에 도움을 줄 수 있는 파이썬 라이브러리를 소개하겠다. 계산을 위한 numpy, 데이터 분석을 위한 pandas, 시각화 도구인 matplotlib, 정규표현식을 사용하기 위한 Re, 그리고 HTML을 다루기 위한 Beautiful Soup까지 총 5가지 라이브버리에 대해 알아보자. 1. 넘파이 numpy 넘파이(numpy)는 빠르고 효율적인 계산을 위해 만들어진 파이썬 라이브러리이다. 넘파이는 고성능의 다차원 배결 객체와 이러한 배열을 계산할 효율적인 도구를 제공한다. 넘파이의 핵심은 ndarray 객체이다. 이 객체는 동일한 자료형을 가지는 ..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/JACEz/btqSpFW7zbD/o2rmXhedi2FEoB2sKrtig1/img.png)
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 자연어 처리를 위해서는 우선 텍스트에 대한 정보를 단위별로 나누는 것이 일반적이다. 예측해야 할 정보(문장 혹은 발화)를 하나의 특정 기본 단위로 자르는 것을 토크나이징이라고 한다. 파이썬을 이용하면 이러한 작업을 라이브러리를 통해 간편하게 처리할 수 있다. 토크나이징을 할 때는 언어의 특징에 따라 처리 방법이 달라지므로 영어 토크나이징과 한글 토크나이징을 구분해서 알아보자. 1. 영어 토크나이징 라이브러리 영어의 경우 NLTK(Natural Language Toolkit)와 Spacy가 토크나이징에 많이 쓰이는 대표적인 라이브러리이다. 1) NLTK (Natu..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/dn3gKu/btqR3SJKykI/yeO4nkCcYwKEBisZK2RU61/img.png)
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 사이킷런(scikit-learn)은 파이썬용 머신러닝 라이브러리다. 머신러닝 기술을 활용하는 데 필요한 다양한 기능을 제공하며, 파이썬으로 머신러닝 모델을 만들 수 있는 최적의 라이브러리이다. 라이브러리를 구성하는데 대부분의 모듈들이 통일된 인터페이스를 가지고 있어 간단하게 여러 기법을 적용할 수 있으며, 쉽고 빠르게 원하는 결과를 얻을 수 있다. 지도 학습 모듈에는 나이브 베이즈(Naive Bayes), 의사결정 트리(Decision Trees), 서포트 백터 머신(Support Vector Machines) 모델 등이 있다. 비지도 학습 모듈에는 군집화(Cl..
본 포스팅은 『텐서플로2와 머신러닝으로 시작하는 자연어처리』를 참고하여 만들어졌습니다. https://wikibook.co.kr/nlp-tf2/ 텐서는 N차원 매트릭스를 의미하며, 말 그대로 텐서를 플로(Flow)한다는 것은 데이터 흐름 그래프(Data flow graph)를 사용해 수치 연산을 하는 과정을 의미한다. 그래프의 노드(Node)는 수치연산(operation), 변수(variable), 상수(constant)를 나타내고 엣지(edge)는 노드 사이를 이동하는 다차원 데이터 배열(tensor)을 나타낸다. 1. tf.keras 텐서플로를 이용해 하나의 딥러닝 모델을 만드는 것은 마치 블록을 하나씩 쌓아서 전체 구조를 만들어가는 것과 비슷합니다. 그렇다면 모델을 만들기 위해서는 어떤 블록들이 있..
- Total
- Today
- Yesterday
- 텍스트분류
- 로버트존슨
- word embedding
- 그림자
- 융
- lstm
- 단어표현
- word2vec
- 코딩하는 신학생
- 분석심리학
- WebProgramming
- text classification
- Polls
- AI
- Python
- 코딩테스트
- Skip-gram
- 젠심
- Tutorial
- django
- NLP
- 자연어처리
- CBOW
- 알고스팟
- 인공지능
- 당신의 그림자가 울고 있다.
- web
- 심리학
- word vector
- Mikolov
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |