본문 바로가기

자연어처리/Reasoning

Distilling Structured Rationale from Large Language Models to Small LanguageModels for Abstractive Summarization

■ LLM은 텍스트 요약 성능이 뛰어나며, 단순한 summary을 넘어 잘 구조화된 rationales을 생성할 수 있다. 이러한 rationales은 더 작은 모델(~1B)이 더 나은 summary를 생성하도록 유도하는 데 사용될 수 있다. 

■ 그러나 70B 이상의 모델에서는 비용 문제로 제한된 환경에서는 이를 활용하기 어렵다. 게다가 이러한 structured rationales을 LLM에서 SLM으로 증류하는 것은 여전히 어려운 과제로 남아 있다.  

■ 이를 해결하기 위해, 논문에서는 "LLM-based Structured Rationale-guided Multi-view Weak-gated Fusion framework (LSR-MWF)"를 제안한다.  

 

1. Introduction

■ Fig 1에서 볼 수 있듯이, LLM은 document로부터 Essential Aspects (EA), Associated Sentences (AS), Triple Entity Relations (TER)로 구성된 high-quality structured rationales을 생성할 수 있다.  

■ 이러한 rationales은 Chain-of-Thought (CoT)와 유사하게 작동하여 SLM이 더 나은 summary를 생성하도록 유도하는 데 사용될 수 있다.  

■ 그러나 70B 이상의 파라미터를 가진 LLM의 비용 문제는 자원이 제한된 환경에서 사용하기 어렵다. 

그리고 rationale extraction, rationale selection 방법과 이것들을 어떻게 학습시킬지, 이러한 structured rationales을 LLM에서 SLM으로 효과적으로 증류하는 것은 어려운 문제로 남아 있다.    

■ abstractive summarization은 긴 텍스트를 간결하고 정보가 풍부한 요약문으로 압축하는 task이다. 

■ 기존 방법들은 주로 소스 문서의 전반적인 내용에만 초점을 맞추고, 문서가 지닌 계층적 구조 정보는 충분히 고려하지 못했다. 그 결과 요약문의 품질이 떨어지는 경우가 많았다. 

■ 소스 문서의 계층적 특성을 인식하기 시작하면서 최근 연구들은 문서의 핵심 주제를 추출하여 structured rationales를 생성하는 데 있어 LLM이 큰 잠재력을 지니고 있음을 보여주고 있다. 

■ LLM의 structured abstractive summarization capabilities을 SLM에 전수하여 성능과 해석 가능성을 동시에 향상시키기 위해, 논문에서는 LSR-MWF라는 새로운 프레임워크를 제안한다.  

■ LSR-MWF의 전체 프로세스를 간략히 정리하면 (1) LLM을 통한 documents의 structured rationales 탐색 (2) best rationales 선별 (3) local small model training이다.  
- (1)은  LLM-based Structured Rationale-guided (LSR) sub-framework를 기반으로 LLM이 document에서 EA, AS, TER을 발견하도록  
- (2) high-quality structured rationales을 선별하기 위해 multi-step summary generation evaluation strategy를 사용하고 
- (3) Multi-view Weak-gated Fusion (MWF) sub-framework를 사용하여 small model을 학습시킨다.  



 

2. Related Work

LLMs for Abstractive Summarization

■ 수십억 개의 파라미터를 가지고 방대한 텍스트 코퍼스로 학습된 LLM들은 abstractive summarization tasks에서 뛰어난 성능을 보여준다. 특히, 이러한 LLM들의 성능은 step-by-step reasoning을 통해 가이드될 때 더욱 향상될 수 있다. 

■ 그러나 이러한 인상적인 성능에도 불구하고, LLM 사용에 요구되는 비용이 제약으로 작용한다. 또한, LLM API를 사용할 때 개인정보 보호 문제도 있다.  

■ 이러한 LLM의 비용 및 개인정보 보호 측면의 한계는 로컬 환경에서 실행되는 SLM의 필요성으로 이어진다. 

■ abstractive summarization에서 LLM의 reasoning capabilities을 활용한 시도들은 헤드라인 생성을 위해 태그의 품질을 높이는 데 사용하거나, LLM이 생성한 aspect-triple rationales을 활용하여 SLM의 요약 품질을 개선시켰다.  

■ 그러나 기존 방법들은 LLM의 능력을 온전히 가져온 것이 아니다. 여전히 LLM의 포괄적인 추출 및 생성 능력을 SLM으로 완전히 transfer시키는 데는 실패하고 있다.  

Knowledge Distillation and Interpretability in Abstractive Summarization

■ knowledge distillation techniques은 larger model이 가지고 있는 specialized knowledge을 추출하여 smaller model을 특정 tasks에 맞게 조정하는 것을 목표로 한다.  

■ abstractive summarization tasks에서 extractive summarization과 abstractive summarization에 초점을 맞추고 knowledge distillation을 활용해 summary generation의 품질을 향상시킨 연구들이 있다. 그러나 이들의 접근법은 해석 가능성(interpretability)가 부족했다.  

■ 모델의 복잡성이 증가함에 따라 모델의 해석 가능성이 점점 더 중요해지고 있다.  

■ 모델 해석 가능성을 높이기 위한 방법으로 rationales generation techniques이 등장하기 시작했으며, 최근에는 LLM이 생성한 structured rationales을 활용하여 small model의 성능과 투명성을 향상시키고 있다.  

■ 그러나, abstractive summarization에서 LLM의 포괄적인 extraction 및 generation capabilities은 여전히 충분히 연구되지 않았다.  

■ 이에 저자들은 LLM의 reasoning abilities을 더 깊이 파고들 수 있는 rationale generation method를 정교화하고, structured information을 보다 포괄적으로 활용하기 위한 방법으로 LSR-MWF를 제안한다.  



3. Methodology

Overview

■ LLM의 문서 요약 능력을 SLM로 transfer하는 LSR-MWF의 전체 아키텍처는 Fig 2에서 볼 수 있듯이, 세 가지 구성 요소로 이루어져 있다: LLM-based Structured Rationale Digging, Best Rationale Selection, 그리고 Multi-view Weak-gated Fusion Small Model Training 

Step 1: LLM-based Structured Rationale Digging

■ 먼저 LLM의 강력한 extraction 및 generation capabilities과 맞춤형 prompt templates을 활용하여 source document와 ground-truth summary 사이에 존재하는 잠재적인 추론 과정, 즉 "structured rationale"을 광범위하게 탐색한다. 

■ 이 탐색 과정은 EA, AS, TER이라는 세 가지 서로 다른 관점의 발굴을 통해 진행되며, 이는 subsequent three tasks의 요구사항에 따라 유도된다.  
- 논문에서는 EA, AS, TER을 보석(gem)에 빗대어 표현한다.  

Gem 1: Essential Aspect (EA) 

■ EA는 source document에서 추출된 topic words(단, summary sentence에 대응되는) \( a_{1 \sim n} \)으로 정의된다.  

Gem 2: Associated Sentence (AS)

■ AS는 document 내에서 EA와 가장 관련성이 높은 sentences \( s_{1 \sim n} \) 

Gem 3: Triples Entity Relation (TER)

■ TER은 AS에서 추출된 structured triple entity relations \( r^*_{1 \sim m} = \langle s|r|o \rangle_{1 \sim m}, (m \ge n) \)로 정의되며, 이는 subjects \(s_{1 \sim m} \), relations \( r_{1 \sim m} \), objects \( o_{1 \sim m} \)을 포함한다.  

Task 1: EA Extraction

■ 먼저 document \( D \)와 \( D \)에 대응되는 ground-truth summary \( S^* \)에서 EA를 추출하여, set \( A = \{a_1, a_2, \dots, a_n\} \)을 얻는다.  

■ \( |S^*| \)가 \( S^* \)의 문장 개수라고 할 때, 이에 대한 식은 다음과 같다. 

- \( S^* \)의 각 문장(\( s^*_i \))마다 하나의 topic word(\( a_i \))를 추출한다.  

- \( D \)와 현재 보고 있는 \( i \)번째 요악 문장 \( s^*_i \), 그리고 이전에 추출된 topic word들 \( a^{<i} \)이 주어졌을 때, 현재 문장의 topic word \( a_i \)가 무엇일지 계산한다.  - 이렇게 각 \( a_i \)는 \( D \)와 \( s^*_i \), 그리고 이전에 추출된 \( a^{<i} \)에 조건부 확률로 모델링된다. 이는 문서와 ground-truth summary와 이전 EA의 맥락을 고려하는 것이다.  

Task 2: AS Extraction 

■ 추출된 EA가 주어졌을 때, \( D \)에서 AS를 추출하여 set \( S = \{s_1, s_2, \dots, s_n\} \)를 만든다.  

- 각 AS \( s_i \)는 앞서 추출한 EA \( a_i \)와 \( D \), \( s^*_i \) 그리고 이전 AS \( s^{<i} \)에 조건부 확률로 정의된다. 즉, EA와 가장 관련성이 높은 원본 문장을 찾는 것이다.  

Task 3: TER Extraction

■ 추출된 AS를 바탕으로, 각 \( s_i \)에서 그에 상응하는 TER을 추출하여 \( R = \{r^*_1, r^*_2, \dots, r^*_m\} \)을 얻는다.  

- \( s_i \)를 활용하여, 그 안에 포함된 관계들을 삼중항(\( r_i \)) 형태로 변환한다. 

Step 2: Best Rationale Selection

■ 각 training sample에 대해, 추출된 structured rationales의 유일성을 보장하기 위해 LLM의 temperature 파라미터 \( \tau \)를 0으로 설정한다. 

■ multi-step summary generation evaluation strategy을 사용하여, multiple sub-summaries \( S^{mul} \)과 total summary \( S^{tol} \)을 생성한다.  

Task 4: Multiple Sub-summaries Generation

■ document \( D \)가 주어졌을 때, LLM을 활용하여 각 structured rationale에 대한 summary를 생성한다. 이렇게 생성된 summary를 sub-summary라고 부른다. 최종적으로 multiple sub-summaries의 set \( S^{mul} \)을 얻는 것이 목표이다. 

■ structured rationales \( R^* = \{(A_i, S_i, R_i)\}_{i=1}^n \)에 대해 LLM을 사용하여 sub-summary를 얻는 식은 다음과 같다.  

- structured rationale \( r^*_i \)에 대해 LLM을 사용하여 sub-summary를 생성한다. 
- 각 \( r^*_i \)는 \( D \)와 이전까지 생성된 sub-summary들 \( s^{mul, <i} \)와 결합되어 하나의 sub-summary \( s^{mul}_i \)를 생성한다. structured rationale별로 sub-summary를 생성하는 것이다.  

Task 5: Total Summary Generation

■ 생성된 multiple sub-summaries \( S^{mul} \)을 바탕으로, LLM을 사용하여 이를 더 압축하여 더 total summary \( S^{tol} \)을 얻는다. 이에 대한 식은 다음과 같다. 

■ 그런 다음, \( S^{mul} \)과 \( S^{tol} \)에 대해 \( \text{ROUGE}_N \) scores를 계산한다. 

- 생성된 summary와 reference summary 간의 n-gram 기반 유사도를 측정하는 ROUGE 점수이다. 
- reference summary에 있는 n-gram들이 생성된 summary에 얼마나 포함되어 있는지를 비율로 계산한다. 분모는 전체, 분자는 매칭된 개수이다.  

■ abstractive model validation을 위해, 이전 연구들이 사용한 평가 방법을 따라 structured rationales의 quality scores를 계산하기 위해 CNNDM dataset에는 식 (7)을, XSum dataset에는 식 (8)을 각각 사용한다.  

- 식 (7)은 CNNDM dataset에서 structured rationales의 품질을 평가하기 위해 설계된 점수이다.  
- \( \text{ROUGE_1} \)과 \( \text{ROUGE_2} \)가 높을수록 분수 값이 커지므로, 이때의 \( Score_1 \)은 값이 작아진다.  
- 식 (8)은 XSum dataset에서 사용되는 품질 점수로, \( \text{ROUGE_1} \), \( \text{ROUGE_2} \), \( \text{ROUGE_3} \)의 산술 평균을 1에서 뺀 값이다. 이 점수도 값이 낮을수록 품질이 좋음을 의미한다.  
- 식 (8)에서는 \( \text{ROUGE_3} \)을 사용하여 더 긴 문맥을 고려한다.  

■ 점수를 매긴 후, 점수가 낮은 training examples은 버린다. (실험에서 \( Score_1 \)과 \( Score_2 \)의 임곗값을 각각 85, 65로 사용한다)

step 1, 2를 통해 최종적으로 두 개의 새로운 datasets을 얻는다. (Table 1의 *로 표현된 datasets) 

Step 3: Multi-view Weak-gated Fusion Small Model Training

■ step 3는 Multi-view weak-gated Fusion (MWF) sub-framework를 사용하여 SLM을 학습시키는 방법에 대한 내용이다. 

■ 이 프레임워크는 LLM에서 추출한 structured rationales을 SLM이 효과적으로 학습할 수 있도록 modules을 추가하고 활용한다.  
- 논문에서는 EA, AS, TER을 각각 \( \langle A \rangle \), \( \langle S \rangle \), \( \langle R \rangle \)
로 표기한다.  

■ 그 후, weak-gated mechanism을 통해 modules에서 출력된 특징들을 original abstractive model과 통합한다.  

Multi-view Hierarchical Aligning of Structured Rationales

■ structured rationales에 대한 세 가지 viewpoints에 대해 각각 모듈을 구축한다: essential aspects module, associated sentences module, triple entity relations module 

■ 이 모듈들은 structured rationales을 학습하기 위해 추가된 모듈들이다. 

■ 모든 모듈은 Transformer 아키텍처를 기반으로 하며, 모든 모듈에 대한 input은 동일한 소스 문서 \( D \)이다.  

■ 각 모듈은 (Fig 2에서는 단순화를 위해 생략된)공유 임베딩 레이어를 통과한 후, 각각 자신만의 self-attention 레이어를 통해 input \( D \)를 처리하여 의미적 내용을 더 풍부하게 만든다.  

■ 이 모듈들이 출력하는 semantic features인 \( A_{\text{out}} \), \( S_{\text{out}} \), \( R_{\text{out}} \)이 LLM이 추출한 \( \langle A \rangle \), \( \langle S \rangle \), \( \langle R \rangle \)과 밀접하게 정렬되도록 만드는 것이 목표이다.  

■ 이 정렬을 위해, 사전에 abstractive model의 인코더를 사용하여 \( \langle A \rangle \), \( \langle S \rangle \), \( \langle R \rangle \)를 인코딩한다. 그리고 인코딩된 \( \langle A \rangle \), \( \langle S \rangle \), \( \langle R \rangle \)에 average pooling을 적용한다.   

■ 그리고 각 모듈의 출력 \( A_{\text{out}} \), \( S_{\text{out}} \), \( R_{\text{out}} \)도 동일하게 average pooling을 적용한 다음, 

■ 마지막으로, average pooling이 적용된 \( A_{\text{out}} \), \( S_{\text{out}} \), \( R_{\text{out}} \)과 \( \langle S \rangle \), \( \langle R \rangle \) 사이의 코사인 유사도를 계산한다.   
- \( \text{Cosine loss} = sim \langle x, y \rangle = (xy) / (||x|| ||y||) \)이다. 예를 들어 \( \mathcal{L}_{\text{EA}} \)는 \( \mathcal{L}_{EA} = sim \langle A_{out}, \langle A \rangle \rangle \)와 같다. 
- 이러한 정렬 과정의 목적은 SLM의 내부 표현이 LLM이 추출한 구조적 지식(EA, AS, TER)과 의미적으로 일치하도록 강제하는 것이다.  

Features Fusion through Weak-gated Mechanism

■ 이 메커니즘은 각 디코딩 계층에서 다양한 관점(EA, AS, TER)에서 추출된 semantic features의 융합 정도를 동적으로 조절하기 위해 사용된다. 

■ \( A_{\text{out}} \), \( S_{\text{out}} \), \( R_{\text{out}} \)이 각각의 weak-gated network에 입력된 후, \( L \)번 복제된다. 여기서 \( L \)은 abstractive model의 디코더의 레이어 수이다.  

■ abstractive model의 인코더로부터 인코더의 출력 \( X^{en} \)이 주어지면, 디코딩 단계에서 각 디코더 레이어는 다음과 같은 연산을 수행한다.  

- 식 (9)는 cross-attention 과정을 나타낸 것이다. 

■ 여기서 \( X^{en}_{\text{new}, i} \)는 abstractive model의 encoder output과 structured rationales 사이의 features fusion 결과이며, \( i \in L \)일 때 다음과 같다.  

- 모델 인코더의 output \( X^{en} \)에 \( A_{\text{out}} \), \( S_{\text{out}} \), \( R_{\text{out}} \)에 대한 벡터들을 더한 것이다.  
- \( g^A_i \), \( g^S_i \), \( g^R_i \)는 [0, 1]의 스칼라 값으로 각 정보(EA, AS, TER)에 대한 가중치로 작동한다. 이 가중치는 학습 가능한 파라미터로, 이를 통해 모델이 \( i \)번째 레이어에서 EA, AS, TER 정보가 얼마나 필요한지를 스스로 결정한다.  

■ \( g^A_i \)는 \( \langle A \rangle \)와 관련된 semantic feature를 통합하기 위해 설계된 \( i \)번째 레이어의 weak-gated unit이다. 그 값의 범위는 [0, 1]이다. 이는 학습 중에 적응적으로 업데이트될 수 있는 연속적인 값이다. \( g^S_i \)과 \( g^R_i \)의 역할도 \( g^A_i \)와 같다.  
- semantic features이 각각의 weak-gated network에 입력된 후, \( L \)번 복제된다고 하였다. 이는 각 디코더 레이어마다 별도의 게이트 가중치를 적용할 수 있도록 구조화한 것으로 보인다.  
- \( i \in L \)일 때, 가중치로 작동하는 \( g^A_i \), \( g^S_i \), \( g^R_i \)는 다른 층에서 다른 값으로 학습되어 모델이 디코딩 단계별 혹은 \( i \)번째 디코딩 레이어 레이어에서 중요한 feature에 의존하도록 만들 수 있다.  
- \( g^A_i \), \( g^S_i \), \( g^R_i \)는 학습 가능한 파라미터로 [0, 1]의 값(sigmoid와 같은 함수를 사용해 이 범위를 유지할 수 있을 것이다)을 가지므로, EA 정보가 더 중요하다면 \( g^A_i \) 값이 높아지고, TER 정보가 더 중요하다면 \( g^R_i \) 값이 높아질 것이다.  

■ 고정된(즉, 학습으로 업데이트되지 않는) ReLU activation function을 게이트로 사용한 이전 연구들과 달리, 저자들은 게이트를 adaptively하게 학습되는 가중치 네트워크 파라미터로 취급하며, 이를 "weak-gated unit"이라고 부른다.  

■ 서로 다른 레이어에서 weak-gated unit의 값을 관찰함으로써, 각 디코딩 단계에서 모델이 특정 feature(\( A_{\text{out}} \), \( S_{\text{out}} \), \( R_{\text{out}} \) 중 어떤 것에 더 높은 가중치가 할당되었는지)에 얼마나 의존하는지(즉, model의 의사결정 과정)에 대해 확인할 수 있다. 

Training Objective of Loss Function

■ abstractive model의 생성 능력을 보존하고 향상시키기 위해, sequence-level의 cosine loss \( \mathcal{L}_{\text{EA}} + \mathcal{L}_{\text{AS}} + \mathcal{L}_{\text{TER}} \)와 token-level의 cross-entropy loss \( \mathcal{L}_{cross-entropy} \)를 결합한 loss function을 사용한다.  

- abstractive model의 기본적인 생성 능력을 보존하기 위해 \( \mathcal{L}_{cross-entropy} \)를 사용하고, 세 가지 관점(EA, AS, TER)에 대한 정렬로 생성 능력을 향상시키기 위해 \( \mathcal{L}_{\text{EA}} + \mathcal{L}_{\text{AS}} + \mathcal{L}_{\text{TER}} \)를 사용하는 것이다. 

- \( \gamma_1 \)과 \( \gamma_2 \)는 하이퍼파라미터이다. 

■ 주목할 점은, sequence-level의 cosine loss와 token-level의 cross entropy loss가 상호 보완적으로 작용한다는 것이다.

cosine loss가 전체적인 structured rationales을 잘 포착했는지 평가하고, cross entropy loss는 일종의 정규화로 작용하여 모델이 전체 시퀀스에 걸쳐 균형 잡힌 확률 분포를 할당할 수 있도록 만들기 때문이다.    
- cross entropy loss만 사용하면 생성된 요약문은 그럴싸하지만 핵심 주제나 논리 구조가 빈약할 수 있다. 
- cosine loss만 사용하면, 주제는 파악하지만 문법적으로 말이 안 되는 문장을 만들 수 있다.   
- 두 가지 loss를 같이 사용해서, 의미론적으로 구조화된 내용을 생성하는 능력(cosine loss를 통해)을 키울 때, 정확한 문장을 잘 생성(cross entropy loss를 통해)하도록 만들 수 있다.   



4. Experiments

Datasets and Metrics

■ 널리 사용되는 두 가지 abstractive summarization datasets CNN/DailyMail (CNNDM)과 XSum을 사용하여 실험을 수행한다. 이 두 데이터셋은 텍스트 길이와 추상화 수준이 서로 다르므로, 저자들이 제안한 방법론의 일반화 능력을 평가할 수 있다.  

■ original datasets에 대해 먼저 전처리를 수행하여 비어 있는 documents나 summaries을 제거한다.  

■ 그 후 document-summary pairs은 두 단계의 처리 과정(식 (7)과 (8))을 거쳐 필터링된다. 저자들은 \( Score_1 \)과 \( Score_2 \)의 threshold 값을 각각 85와 65로 설정하였다.  
- CNNDM과 XSum에 대한 처리 전후의 데이터셋 크기는 Table 1에서 볼 수 있다.  

■ 결과 요약문의 품질을 측정하기 위해 ROUGE를 평가지표로 사용한다. 구체적으로 정답 요약문과 생성된 요약문 사이의 ROUGE-1 (R-1), ROUGE-2 (R-2), ROUGE-L (R-L)의 F1 scores을 사용한다.  

■ 추가로, 생성된 요약문과 정답 요약문 사이의 의미적 유사도를 측정하기 위해 BERTScore (BS)를 사용한다.  

Setup

■ LLM으로 Llama3-70B를 사용하고, origin abstractive model로 BART-large를 사용한다. LSR-MWF의 전체 파라미터 수는 439M이다.  

■ learning rate scheduling과 Adam optimizer를 사용한다. 학습률은 \( 2 \times 10^{-3} \) min(\( \text{step}^{-0.5}, \text{step} \cdot \text{warmup}^{-.15} \))로 계산된다. 여기서 step은 업데이트 횟수를 의미하며, warmup은 10,000으로 설정했다.  
- 초기에는 \( \text{step} \cdot \text{warmup}^{-.15} \) 값이 더 작지만, warmup 이후(10,000 스텝 이후)에는 \( \text{step}^{-0.5} \) 값이 더 작아진다. 그러므로 warmup 이후에 학습률은 스텝 수의 역제곱근에 비례하여 감소하게 된다.  

■ CNNDM의 경우, initial weak-gated units 값은 모두 0.02로 설정하고 \( \gamma_1 = 0.6, \gamma_2 = 0.4 \)로 설정했다.  

■ XSum은 initial weak-gated units 값은 모두 0.01, \( \gamma_1 = 0.7, \gamma_2 = 0.3 \)으로 설정했다.  
- XSum은 CNNDM보다 훨씬 짧은 요약을 요구하며, 추상화 수준이 더 높다. XSum의 요약은 원문과 겹치는 n-gram이 훨씬 적다. 즉, 원문에 없는 어휘나 문장 구조를 사용하여 새로 쓰는 추상적 방식이 필요하다.   
- XSum이 좀 더 창의적인 생성을 요구하므로, CNNDM보다 낮은 \( \gamma_2 \) 값을 설정해 구조적 제약을 조금 더 약하게 둔 것으로 보인다.  

Results

■ structured rationales을 활용했을 때, LSR-MWF는 두 데이터셋 모두에서 거의 모든 베이스라인들을 능가하는 뛰어난 요약 능력을 보여준다. 즉, structured rationales을 사용하는 것이 더 높은 품질의 요약문을 생성하는 데 효과적이다.  

■ 주목할 점은 LSR-MWF처럼 structured rationales을 활용하는 TriSum보다 더 나은 성능을 보였다는 것이다. 이는 저자들의 설계(EA, AS, TER 모듈, weak-gated fusion 등)가 더 효과적이었음을 시사한다.  

Ablation Study

■ Table 3은 "gems"과 그에 해당하는 모듈을 제거했을 때 모델 성능에 미치는 영향을 확인한 결과이다. 

CNNDM에서 TER에만 의존하는 것(w/o EA&AS)은 AS만 사용하는 것(w/o EA&TER)보다 좋은 성능을 내지 못한다는 것을 볼 수 있다.  

■ 반대로 XSum에서는 TER만 사용하는 것이 AS만 사용하는 것보다 더 큰 이점을 보였는데, 이러한 결과에 대해 저자들은 XSum 요약문의 더 높은 추상화 수준에 기인한 것으로 추측한다.  
- 저자들은 더 긴 요약문을 요구하는 CNNDM에서는 TER만으로는 부족하고, AS가 있어야 관계 정보를 제대로 활용할 수 있으며, XSum은 높은 추상화 수준을 요구하므로 AS보다는 TER만 사용해서 새로 조합하는 것이 유리하다고 주장한다.  

■ 이러한 결과는 summarization task의 성격에 따라 필요한 구조적 정보의 종류가 다를 수 있음을 시사하며, 이 모든 요소들(EA, AS, TER)을 통합적으로 사용한(정확하게는 weak-gated 메커니즘으로 각 요소들의 중요도를 스스로 학습한) LSR-MWF가 최적의 성능을 냈음을 보여준다.  



5. Analysis

Superiority of Weak-gated Mechanism

■ Table 4에서 볼 수 있듯이, weak-gated units의 가중치 초기화의 경우 지나치게 크거나 작은 값으로 설정하는 것은 바람직하지 않다.  

■ Table 4에서 *로 표시된 0.020은 weak-gated units의 가중치를 고정된 값으로 설정하고 학습 중에 업데이트하지 않았을 때의 결과이다. 그렇지 않은 설정에 비해 모델 성능이 상당히 감소한 것을 볼 수 있다.  

■ 이는 structured rationales을 abstractive model에 통합하는 과정에서, weak-gated units의 가중치를 adaptively and dynamically으로 변화하도록 학습시키는 것이 중요함을 보여준다. 즉,  structured rationales은 항상 똑같은 비중으로 중요한 것이 아니라, 문맥에 따라 그 중요도가 달라짐을 시사한다. 

Visualization of Weak-gated Mechanism

■ Fig 4는 세 가지 유형의 gems에 대해, LSR-MWF 학습 과정에서 weak-gated units의 가중치 변화를 나타낸 것이다. 

■ CNNDM의 경우, 처음 6개 디코더 레이어에 해당하는 weak-gated units의 가중치 변동은 상대적으로 작으며 0.02에 가까운 값을 유지한다. 그러나 마지막 6개 레이어는 변동폭이 크다.  

■ 그리고 TER의 weak-gated 가중치가 더 급격하게 변화하는 것을 볼 수 있다. 이에 대해 저자들은 TER이 높게 요구됨에 따라 가중치의 빠른 적응이 필요했기 때문이라고 추측한다.  

■ XSum의 경우, 오직 마지막 4개 레이어의 weak-gated units만 변동을 보인다. 특히, 마지막 레이어의 weak-gated units은 EA, AS, TER 모두에서 급격한 변동을 보인다.  

■ 이에 대해 저자들은 abstractive model의 마지막 디코더 레이어의 정보가 중요할 수 있으며, 이에 적응하기 위해 가중치가 빠르게 상승한 것으로 추측한다.  

Study of Sequence-level and Token-level Loss

■ Fig 5는 CNNDM에 대한 \( \gamma_1 : \gamma_2 \)의 최적 비율이 6:4인 반면, XSum에 대한 최적 비율은 7:3임을 보여준다.  

■ 이는 CNNDM이 sequence-level cosine loss가 더 적합하고, XSum은 token-level loss가 더 적합함을 시사한다. 이러한 차이는 XSum 요약문의 더 높은 추상화 수준에 기인한 것으로 보인다.  
- XSum에서는 거의 새로운 문장을 생성해야 하므로, 구조적 제약보다는 자연스러운 문장 생성을 위한 토큰 단위 학습이 더 중요하다고 해석할 수 있다.  

Case Study

■ Fig 3은 해리포터 대본 제작 예정 소식을 다룬 CNNDM의 예시이다. 

볼드체 처리된 Article은 BART가 기사를 요약한 것으로, 등장인물과 줄거리를 자세히 명시하고 있지만, 언제(ground truth summary의 2014)인지 그리고 어떤 맥락인지(공개 행사), 일부 핵심 정보를 누락했다.  

■ 저자들의 방법론을 적용한 결과를 보면, EA에서 시작하여 AS로, 최종적으로 TER로 나아가는 모습을 볼 수 있다. (Structured Rationales) 
- EA: "Harry Potter Play", "Play Development"라는 키워드를 먼저 잡은 다음, 
- AS: AS는 문서에서 EA와 관련성이 높은 "The play, which will go into development in 2014"라는 문장을 근거로 삼은 것을 볼 수 있다 
- TER: 그리고 <The play # will go into development # 2014>라는 확실한 관계식을 추출했다.