티스토리 뷰
[논문리뷰] An Exploratory Study on Long Dialogue Summarization: What Works and What's Next
CoShin 2022. 6. 20. 14:590. 핵심 내용 3줄 요약
1. 기존 Transformer based Model은 Input sequence의 길이가 제한되어 있어서 Dialogue같은 Long Text를 요약하는데 어려움이 있다.
2. Dialogue(Long Text)를 요약하기 위해서 1) Longformer 2) retrieve-then-summarize pipline 3)hierarchical dialogue encoding models such as HMNet 이 제안 되었다.
3. 위 세 모델에 대하여 QMSum, MediaSum, SummScreen 데이터셋으로 실험을 했을 때 retrieve-then-summarizae pipline이 가장 좋은 성능을 보였다. 이에 더하여 강력한 retrueval model과 추가적인 summerization dataset을 이용하면 더욱 좋은 성능을 낼 수 있음을 밝혔다.
1. Introduction
- 이전에는 20턴 이하의 비교적 짧은 대화 요약에 집중하였다면, 최근 굉장히 긴 대화를 요약하는 것에 집중하고 있다.
- 하지만, 요약에서 좋은 성능을 보이는 Pretrained Transformer 모델들은 Input Sequence의 길이에 제한이 있기 때문에 긴 대화를 요약하는 것이 불가능하다.
- Main Challenge : How can we effectively use the current neural summarization models on dialogues that greatly exceed their length limits?
- 추가적으로 일반적인 Document Summerization과 비교하면, Dialogues는 Context에 의존하며 상호작용을 만들어내는 특성을 가지고 있다. 이 이슈를 해결하기 위해 대화의 Turn-Level의 Hierachocal Methods가 제안되었다.
- 본 논문에서는 세 가지 모델 1) Longformer 2) retrieve-then-summarize pipline 3)hierarchical dialogue encoding models such as HMNet 을 여러 데이터셋( QMSum, MediaSum, SummScreen)에 대하여 실험을 진행한다.
2. Related Work
- Transformer를 기반으로 하는 모델들은 Input 길이의 제곱배에 비례하는 연산량을 요구하기 때문에 input의 길이에 제한이 생긴다.
- 이러한 Issue를 해결하기 위해 Sliding window and Global Attention을 이용한 Longformer, Sliding window and Global Attention을 random하게 combination하여 시간복잡도가 선형에 근사하게 만든 BigBird 등이 제안되었다.
- 기존 Long Text Summerization은 Document Summerization에 집중되어 있어서 Dialoge Summerization은 연구가 활발하게 이뤄지지 못 하였다.
3. Mothodology
3.1 Datasets
- QMSum : Query Based Multi Domain Meeting Summarization Dataset annotated by humans.
- MediaSum : Large scale media interview dataset. It contains short summaries.
- SummScreen : Dialogue Summerization dataset consisting of TV series transcripts and human annotated summaries.
3.2 Models
3.2.1 Retrieve-then-summarize Pipeline
- Long Text에서 relevant subtext를 찾아낸 이후 subtext에 대해서 Summrizaion을 한다.
- Retrivers 방식으로는 TF-IDF, BM25(TF-IDF 변형), Locator(BERT와 CNN을 섞은 Utterance Locator Model)를 이용한다.
- Summerization 모델로는 Pretrained BART-Large을 이용한다.
3.2.2 End-to-End Summarization Models
BART
- Transformer 기반의 encoder-decoder model.
- Text Generation에서 Sota의 성능을 보였다.
- 본 논문에서는 다른 Setting과 ablation study 진행을 위하여 baseLine으로 사용
- 1024개의 Input Sequence 제한이 있다.
HMNet
- Dialogue Summerization을 위한 Hierachical Network
- Token level의 encoder-to-encoder와 Turn Level의 aggregation encoder 사용.
- BART보다 8배 큰 8192개의 Input sequence 제한이 있다.
Longformer
- Sliding window attention + Golbal Attention을 도입하여 Self-Attention을 계산합으로 계산 복잡도를 효과적으로 줄인 Transformer 변형 모델
- 16K개의 Input Sequence까지 처리 할 수 있는 능력을 가지고 있음
- 본 논문의 실험에선 4096개의 Input sequence의 제한을 두어 진행
4. Result and Analysis
4.1 Dealing with Long Dialogues
- 서로 다른 Retreval 방법에 대한 Long input 처리 능력을 평가하기 위해 QMSum데이터로 실험을 진행
- BM25 방식의 Retriveval이 가장 좋은 성능을 보였으며, BART와 Longformer보다 좋은 성능을 보임.
- Gold Span이 주어진 경우 Summarization 성능이 올라감. 즉, Retrival 성능이 좋아질수록 Retrieve-then-Summarizae Pipline의 성능 향상을 기대할 수 있음.
4.2 Robustness to Input Length
- BART와 HMNet에 대하여 다양한 길이의 Input에 얼마나 Robust한 성능을 보이는지 실험 진행
- BART는 길이가 길어질수록 성능 하락(1024Token이 넘어가는 Token는 Cut-off하기 때문에)
- HMNet은 길이가 길어져도 Robust한 성능을 보임
4.3 Incorporation Queries
- 특정 Query에 대한 Dialogue Summarization 성능 비교(QMSum과 같은 데이터)
- Query를 주었을 때와 주지 않았을 때도 함께 성능을 비교
- Query가 주어졌을 때 두 모델 모두 성능이 올라갔으며, HMNet보다 BART가 좋은 성능을 보임
(주의! Table의 BART-CNN은 BART와 Convolutaional Neural Net의 결합이 아닌, CNN-DailyMail 데이터로 사전학습한 BART)
4.4 Transfer Ability between Different Task
- Dialogue Dataset은 보통 크기가 작기 때문에 다른 Dataset으로부터 Transfer Learing의 영향을 많이 받을 것으로 예상
- BART-Large Model을 이용하여 Dateset별 Transfer Ablilty 실험 진행
- 대체로 CNN-DailyMail 데이터가 좋은 성능을 보임
4.5 Case Study
- BART-CNN 모델이 Syntax Error가 적게 발생함
- BART-MediaSum 모델이 Short Inpunt에 대해서는 좋은 성능을 보임
- 핵심 내용이 들어있는 Subtext를 발췌하여 BART-CNN을 사용하는 것을 권장
5. Future Work
- Utterance Retrival 자체도 굉장히 Challenging 한 분야
- Pretrain을 위한 Dataset 구축
- Query와 Text를 어떻게 Nureal Model에서 결합시킬 것인가
- Input Sequence에 Roburst한 모델
'인공지능, 자연어처리' 카테고리의 다른 글
- Total
- Today
- Yesterday
- 코딩테스트
- 융
- 당신의 그림자가 울고 있다.
- django
- Python
- 인공지능
- 그림자
- 젠심
- word vector
- 분석심리학
- 코딩하는 신학생
- lstm
- AI
- word2vec
- 텍스트분류
- word embedding
- NLP
- Skip-gram
- web
- 알고스팟
- text classification
- Mikolov
- 단어표현
- 심리학
- 자연어처리
- Polls
- 로버트존슨
- CBOW
- Tutorial
- WebProgramming
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |