본 포스팅은 바라가브 스리니바사 디지칸, 『자연어처리와 컴퓨터언어학』, 마창수 역, 에이콘을 참고하여 만들어졌습니다. http://acornpub.co.kr/book/nlp-computational-linguistics 1. 젠심 소개 벡터는 더 나은 머신 러닝 분석을 위한 데이터를 준비하고 전처리하는 단계에 해당하는 내용이다. 텍스트와데이터를 준비하는 과정에 집중하는 것처럼 느껴질 수 있지만 이전에 말했듯이 "쓰레기가 입력되면 쓰레기가 출력된다"는 것을 기억하자. 텍스트를 머신러닝의 입력으로 사용하기 위해 텍스트를 숫자로 표현하는 방법, 특히 문자열을 벡터로 전환하는 방법을 알아본다. 표현(representations)과 변환에 대해 이야기할 때 BOW, TF-IDF, LSI 및 최근 인기를 끌고 있는..
본 포스팅은 바라가브 스리니바사 디지칸, 『자연어처리와 컴퓨터언어학』, 마창수 역, 에이콘을 참고하여 만들어졌습니다. http://acornpub.co.kr/book/nlp-computational-linguistics 1. 토픽 모델링의 이해 토픽 모델은 텍스트에서 특정 토픽에 관한 정보를 포함하고 있는 확률 모델, 토픽은 텍스트에서 표현하고 있는 아이디어나 주제를 말한다. 예를 들어 뉴스 기사의 말뭉치를 다루고 있다면 가능한 주제는 날씨, 정치, 스포츠, 경제 등이 될 것이다. 왜 텍스트 처리 영역에서 토픽 모델이 중요할까? 전통적으로 IR과 검색 기술은 유사성과 관계성을 식별하기 위해 단어를 이용한다. 이제 단어 대신 토픽을 이용해 광법위하게 검색하고 파일을 정리할 수 있다. 하지만 토픽이 의미하는..
- Total
- Today
- Yesterday
- lstm
- 인공지능
- 당신의 그림자가 울고 있다.
- 그림자
- 코딩하는 신학생
- Polls
- 자연어처리
- 젠심
- 로버트존슨
- django
- NLP
- WebProgramming
- 분석심리학
- 알고스팟
- word embedding
- 텍스트분류
- Mikolov
- CBOW
- 코딩테스트
- 단어표현
- AI
- text classification
- word vector
- 융
- Python
- web
- 심리학
- Tutorial
- word2vec
- Skip-gram
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |