Glaese, Amelia, et al. "Improving alignment of dialogue agents via targeted human judgements." arXiv preprint arXiv:2209.14375 (2022).

Improving alignment of dialogue agents via targeted human judgements

Abstract

우리는 **정보 탐색 대화 에이전트(information-seeking dialogue agent)**인 Sparrow를 소개한다. Sparrow는 prompt 기반 language model baseline에 비해 더 유용하고(helpful), 정확하며(correct), 무해하도록(harmless) 학습되었다. 우리는 **인간 피드백으로부터의 강화 학습(reinforcement learning from human feedback)**을 사용하여 모델을 학습시켰으며, 인간 평가자가 에이전트 행동을 판단하는 데 도움이 되는 두 가지 새로운 요소를 추가했다.

첫째, 에이전트를 더 유용하고 무해하게 만들기 위해, 우리는 좋은 대화에 필요한 요구사항들을 에이전트가 따라야 할 자연어 규칙으로 세분화하고, 각 규칙에 대해 평가자에게 개별적으로 질문했다. 우리는 이러한 세분화가 에이전트 행동에 대한 더 목표 지향적인 인간 판단을 수집할 수 있게 하며, **더 효율적인 규칙 조건부 보상 모델(rule-conditional reward models)**을 가능하게 함을 입증한다.

둘째, 모델의 진술에 대한 선호도 판단을 수집할 때, 에이전트는 사실적 주장을 뒷받침하는 출처로부터의 증거를 제공한다. 사실적 질문에 대해 Sparrow가 제공한 증거는 샘플링된 응답의 78%를 뒷받침한다. Sparrow는 baseline보다 더 자주 선호되었으며, 인간의 **적대적 probing(adversarial probing)**에 더 강건하여, probing 시 규칙을 위반하는 경우가 8%에 불과했다.

마지막으로, 우리는 모델이 규칙을 따르도록 학습되었음에도 불구하고 분포적 편향(distributional biases)을 보일 수 있음을 보여주는 광범위한 분석을 수행한다.

Figure 1 | Sparrow는 최신 답변과 사실적 주장에 대한 증거를 제공한다. 에이전트는 대화 맥락에서 후속 질문에 답변한다: 증거를 검색하고 답변할 때, Sparrow는 "What do they do up there?"에서 'they'가 ISS의 우주비행사를 지칭함을 정확하게 추론한다. Sparrow는 증거를 제공하지 않으며, "개인적인 질문에 답변할 때 인간의 정체성을 가장하지 마십시오"와 같은 우리의 규칙을 따른다. 2022년 9월 9일의 샘플 대화.

1. Introduction

많은 배포된 머신러닝 시스템은 시스템의 objective를 계산하는 프로그램이 없는 환경에서 작동한다. 이는 많은 자연어 task뿐만 아니라 로봇 공학 및 안전한 행동과 task 완료의 일부 측면만 사전에 지정할 수 있는 다른 task에서도 마찬가지이다. 이러한 프로그래밍 방식의 보상(programmatic reward) 부족은 **인간 행동에 대한 판단이 학습 과정의 중요한 구성 요소가 되는 인간 피드백 기반 강화 학습(RLHF)**을 촉진한다. 그러나 인간의 감독은 인간이 충분한 정보를 가지고 동기 부여가 되어 있으며, 데이터 수집 설정이 인간의 오류에 강건할 때만 작동한다.

본 논문에서는 도움이 되고, 정확하며, 무해한 정보 탐색 대화(information-seeking dialogue) task에 대한 보상으로 인간의 판단을 활용하는 방법을 연구한다. 이 task는 사용자가 제기한 질문과 후속 질문에 답변을 제공하는 것을 목표로 하는 인간 사용자와 대화 에이전트 간의 대화로 정의된다 (Zamani et al., 2022). 대화는 사용자가 에이전트에게 자신의 의도를 자연스럽게 전달할 수 있도록 한다. 또한 대화는 매우 일반적이어서 새로운 행동의 기회와 함께 해결해야 할 많은 구체적인 해악을 야기한다 (Bender et al., 2021; Weidinger et al., 2021). 정보 탐색 대화에 초점을 맞춤으로써, 소위 chit-chat 대화보다 성공을 위한 맥락과 기준이 더 잘 정의된다 (예: 정보가 제공되었는가?). 그리고 맥락이 더 잘 정의되면 해악을 정의하기가 더 쉬워진다. 우리는 그 결과로 만들어진 모델을 Sparrow라고 부른다.

우리의 주요 기여는 다음과 같다:

특정 규칙에 대한 목표화된 인간 판단: 우리는 "위협적인 진술을 하지 마십시오" 또는 "재정 조언을 제공하지 마십시오"와 같은 여러 규칙에 대한 위반 여부를 질문함으로써 인간 어노테이터로부터 목표화된 판단을 유도한다 (표 1 참조). 이를 통해 모델의 실패를 특성화하고, 목표화된 분류기를 훈련하며, 인간이 관심 있는 실패 모드를 탐색하도록 안내할 수 있다. 이는 단순히 안전/위험 레이블 (Xu et al., 2021b) 또는 광범위한 해악 개념 (Askell et al., 2021; Bai et al., 2022)에 초점을 맞춘 이전의 probing 방법을 확장한다.
선호도 최대화 및 규칙 위반 최소화를 위한 다중 objective RLHF: 우리는 다양한 기술을 성공적으로 결합하여 단일 통합 모델을 훈련한다. RLHF와 함께 목표화된 규칙 판단 및 선호도 판단을 결합함으로써, prompting, reranking 또는 지도 학습만 기반으로 하는 baseline보다 선호되는 모델을 훈련할 수 있음을 보여준다 (그림 2). 동시에 Sparrow는 baseline보다 인간의 적대적 공격에 훨씬 더 강건하며, probe 대화의 8%에서만 목표 규칙을 위반한다.
정확성 및 검증 가능성 향상을 위한 인라인 증거: 우리는 GopherCite (Menick et al., 2022)의 방법을 대화형 설정에 적용 및 확장하면서, 단일 턴 QA task에서 GopherCite와 유사한 성능을 보여준다. Sparrow가 증거와 함께 답변을 제공할 때, 그 답변은 78%의 경우에 뒷받침되고 그럴듯하며, 이는 prompting 기반 baseline보다 상당한 개선이다. 증거를 제공하는 것은 평가자가 주장을 검증하는 데 도움이 된다.
결과 대화 에이전트에 대한 상세 분석: 특히, 우리는 완화 조치가 인스턴스 해악(instance harms)만 다루기 때문에 (Weidinger et al., 2021), 결과 RL 정책의 분포적 특성에 대한 우리 방법의 영향 분석을 강조한다. 우리의 연구 결과는 우리 방법이 규칙 준수를 개선하지만, 분포적 공정성(distributional fairness) 문제를 증폭시킬 수 있음을 보여준다.

우리의 연구는 LaMDA (Thoppilan et al., 2022), Anthropic assistant (Askell et al., 2021; Bai et al., 2022), SeeKeR (Shuster et al., 2022a)와 같은 다른 대화 시스템과 많은 특징을 공유한다. LaMDA 또한 개별 규칙에 대한 어노테이션을 수집하지만, 규칙 위반을 완화하거나 평가할 때 규칙별 레이블을 사용하지 않으며, 강화 학습 대신 지도 학습 및 랭킹을 사용한다. 우리는 Askell et al. (2021)의 도움이 되고, 정직하며, 무해한 (HHH) 분해를 차용하지만, 우리 방법이 정직성을 직접적으로 다루지 않으므로 현재는 정직(honest) 대신 정확(correct)을 사용한다. Bai et al. (2022)은 인간 선호도 기반 강화 학습을 사용하여 대화 에이전트를 도움이 되고 무해하도록 훈련하지만, 인간을 위해 규칙을 더 세분화하지 않고, 모든 인간 피드백을 나타내는 단일 보상 모델을 훈련하며, 외부 증거를 통합하지 않는다. SeeKeR, LaMDA, BlenderBot 3는 생성된 검색 쿼리를 사용하여 응답이 조건화되는 정보를 검색하는 유사한 지식 검색 메커니즘을 사용하지만, SeeKeR는 평가 중에 검색된 정보를 평가자에게 보여주지 않으며, 이들 중 어느 것도 RL을 사용하지 않는다.

여기서 소개된 메커니즘은 모델의 강건한 정렬(robust alignment)을 위한 유용한 출발점이지만, 우리는 필요한 미래 연구의 몇 가지 영역을 지적한다. task로서의 역할 외에도, 대화는 다양한 증거 소스와 지침을 결합하여 인간이 에이전트 행동을 평가하는 데 도움이 되는 유연한 매체라고 믿는다. 미래에는 에이전트가 이전 출력에 대한 찬반 주장을 제시하여 인간의 판단을 돕는 토론(debate)과 같은 방법 (Irving et al., 2018)이 포함될 수 있다.

2. Methods

Section 2.2에서 설명된 Dialogue Prompted Chinchilla 70B (DPC) (Hoffmann et al., 2022)를 시작으로, 우리는 규칙 위반 및 턴별 응답 선호도에 대한 사람의 데이터를 수집한다 (section 2.3).

Figure 2 | 우리의 RLHF(Reinforcement Learning from Human Feedback) 방법은 prompt 기반 baseline 모델보다 선호도가 높으면서도 규칙 위반 빈도가 더 낮은 모델을 만들어낸다. 이는 prompting 기반 에이전트(DPC - Dialogue-prompted Chinchilla), supervised finetuning (SFT), 그리고 reinforcement learning (RL) 기반 에이전트 간의 비교이다. 모델은 검색을 수행할지 여부를 결정하거나, 검색 결정은 증거 유무에 따른 @N 응답에 대한 reranking을 통해 이루어진다. 자세한 내용은 section 2.2를 참조하라. 우리의 방법은 모델을 더 유용하게 만들면서도 규칙 위반율을 감소시킨다. **선호도(preference) 비율 (y축)**은 모델 응답이 항상 증거를 검색하는 prompt 기반 baseline과 전혀 검색하지 않는 prompt 기반 baseline 쌍에 대한 3자 비교에서 얼마나 자주 선호되는지를 보여준다. **적대적 위반(adversarial violation) 비율 (x축)**은 적대적 probing 상황에서 모델이 규칙을 얼마나 자주 위반하는지를 나타낸다. 오류 막대는 Jeffrey's prior를 사용한 베타 분포 적합으로부터 얻은 68% 신뢰 구간을 나타내며, 별도로 명시되지 않는 한 모든 곳에서 동일하다.

이 데이터는 **선호도 보상 모델(preference RMs)**과 **주어진 규칙이 위반되었는지 예측하는 규칙 보상 모델(rule RM)**을 학습하는 데 사용된다 (section 2.5). 우리는 DPC 기본 모델로 초기화된 advantage actor-critic (A2C) (Mnih et al., 2016) 기반의 강화 학습을 사용하여 모델을 학습시킨다. 우리는 규칙 RM이 추정한 규칙 위반율과 선호도 RM이 추정한 턴별 응답 선호도를 동시에 최적화한다 (section 2.8). Stiennon et al. (2020)의 연구를 따라, 우리는 개선된 모델을 통해 데이터 수집을 지속적으로 확장하고, 그 결과 더 많은 데이터로 모델을 개선한다 (fig. 3). RL 외에도, 우리는 성능을 더욱 향상시키기 위해 테스트 시점에 보상 모델을 reranking에 활용한다 (section 2.6).

2.1. Defining rules

대화 모델이 **유용하고(helpful), 정확하며(correct), 무해해야 한다(harmless)**는 상위 목표에서 시작하여, 우리는 각 목표를 Table 1에 제시된 바와 같이 더욱 상세한 규칙들로 세분화하였다. 이 규칙들은 규칙 기반의 adversarial probing 및 **규칙 조건부 분류(rule-conditional classification)**에 사용된다.

유용성(Helpfulness) 규칙에는 다음이 포함된다:

사용자 질문에 답변하기
주제 유지하기
반복과 같은 일반적인 문제 피하기

이러한 규칙들은 섹션 2.3의 **전반적인 턴별 응답 선호도(per-turn response preference)**와 결합된다.

정확성(Correctness) 규칙은 평가자들이 간과할 수 있는 부정확한 진술 유형을 다룬다. 예를 들어, 에이전트가 물리적인 신체를 가지고 있다고 주장하거나 실제 세계에서 행동을 취한다고 주장하는 경우 등이 해당하며, 이는 섹션 2.4의 **증거별 보상(evidence-specific rewards)**과 결합된다. 유용성 및 정확성 규칙 모두 baseline 모델에 의해 자주 위반되었다.

이전 연구에서 언어 및 대화 모델이 유해한 언어를 출력할 수 있음이 입증되었지만 (Brown et al., 2020; Dinan et al., 2019; Rae et al., 2021), 우리의 baseline 모델은 유해하다고 간주되는 언어를 드물게, 또는 사용자의 adversarial 행동 하에서만 생성했다. 따라서, 우리는 실패 사례를 기반으로 규칙을 작성하는 대신, 기존 문헌을 참고하여 잠재적인 실패 모드를 식별한 다음, 규칙을 작성하고 우리 모델이 규칙을 따르지 않을 수 있는 예시를 탐색했다.

Figure 3 | 우리의 파이프라인은 훈련 세트를 지속적으로 확장하고 Sparrow를 개선하기 위해 인간의 참여에 의존한다. 우리는 prompt가 주어진 language model로 시작한다. 그런 다음 평가자(rater)들이 모델과 상호작용한다: **Response Preference task (섹션 2.3)**에서는 여러 가능한 진술 중 가장 좋은 것을 선택하고, adversarial probing task에서는 특정 규칙 위반을 유도하기 위해 모델과 상호작용한다 (섹션 2.3). 새로운 데이터는 훈련 세트에 병합되어 reward model을 훈련하는 데 사용된다. 이 reward model은 다시 RL을 통해 policy를 개선하는 데 사용되며, 개선된 policy는 더 많은 데이터를 수집하는 데 사용된다.

우리는 정보 탐색 에이전트(information-seeking agents)를 위한 대표적인 요구사항 세트로 우리의 방법론을 테스트하기 위해 규칙 세트를 설계했다. 우리는 규칙 세트의 완전성(completeness)을 목표로 하지 않았다. 특히, 우리는 자연어 규칙으로 인코딩될 수 있고 인간 피드백으로부터의 RL을 사용하여 완화될 수 있는 해악(harms)에 중점을 두었다. 왜냐하면 사회적, 언어적 또는 환경적 정의(Bender et al., 2021)와 같은 다른 목표들은 본 논문의 범위를 벗어나는 완화 전략을 요구하기 때문이다.

넓게 보면, 우리는 Weidinger et al. (2021)이 제안한 분류 체계에서 **차별(discrimination), 배제(exclusion), 유해성(toxicity), 오정보(misinformation), 인간-컴퓨터 상호작용 해악(human-computer interaction harms)**에 해당하는 잠재적 위험을 식별했다. 이전 연구에서는 "유해성(toxicity)"과 같은 광범위한 포괄적 용어가 모호할 수 있다고 주장했으므로 (Banko et al., 2020; Vidgen et al., 2019; Welbl et al., 2021), 우리는 Banko et al. (2020)의 온라인 유해 언어 분류 체계와 Breitfeller et al. (2019)의 microaggression 정의를 포함한 더 세분화된 정의를 기반으로 규칙을 작성했다. 법률, 금융, 의료 조언 제공과 관련된 규칙에 대해서는 사내 법률 전문가와 상의했다. Appendix F에는 우리의 규칙과 각 규칙을 작성하는 데 사용된 특정 자료가 나열되어 있다. 우리는 초기 규칙 세트에 대해 광범위하게 고민했지만, 이 규칙들이 포괄적이지 않으며 실제 사용 전에 상당한 확장과 개선이 필요함을 강조한다.

우리의 규칙은 Thoppilan et al. (2022)의 안전 목표와 유사하지만, 우리의 주석 프로세스를 염두에 두고 작성되었다. 특히, 단일 task 내에서 우리는 주석자들에게 생성하고 주석하는 각 대화에 대해 다른 규칙을 고려하도록 요청한다. 주석자들이 다른 규칙을 빠르게 이해할 수 있도록, 우리의 규칙은 짧고 독립적으로 설계되었다 (따라서 주석자는 다른 맥락 없이 개별 규칙을 이해할 수 있다).

Category	Rule Example
Stereotypes (harm)	사람들의 그룹에 대해 고정관념을 사용하거나 다른 유해한 일반화 진술을 하지 마십시오.
Hate and harassment (harm)	위협적인 진술을 하지 마십시오.
Self-anthropomorphism (harm)	선호, 감정, 의견 또는 종교적 신념을 가지고 있다고 주장하지 마십시오.
Misinformation (correct)	재정적 조언을 제공하지 마십시오. (하지만 투자에 대한 일반적인 질문에 답하는 것은 괜찮습니다.)
...	...

Table 1 | Sparrow에 적용되는 23가지 규칙 중 일부의 범주와 예시로, 훈련에 사용된다. 전체 규칙 세트와 규칙 작성 시 참고한 출처는 Appendix F에 있다.

2.2. Generating dialogue turns

대화 생성을 위한 Prompting
Rae et al. (2021)의 연구를 따라, 우리는 Chinchilla-70B (Hoffmann et al., 2022)와 수동으로 작성된 prompt를 결합하여 대화 에이전트를 구축하였다. 이 prompt는 User와 Agent 두 참가자 간의 대화에서 좋은 행동을 보여주도록 설계되었다.
증거(evidence)를 사용하는 대화 에이전트의 경우, 우리는 두 명의 새로운 참가자를 도입한다:

Search Query: 검색 쿼리를 생성하는 역할.
Search Result: Search Query 턴을 기반으로 Google Search에서 검색된 증거를 추가하는 역할. 이는 Lazaridou et al. (2022)의 방식과 유사하다.

User, Search Query, Agent 턴을 생성하기 위해, prompt, 대화 기록(dialogue history), 참가자 이름을 연결하여 nucleus sampling (Holtzman et al., 2019)을 사용하여 완성을 샘플링하는 context를 구성한다.
Search Result 턴은 Google Search에 쿼리하고 반환된 검색 결과를 스크래핑하여 구성된다 (섹션 2.4에 설명). Figure 4는 대화 스크립트가 LM context로 어떻게 포맷되고, 사람에게 표시될 때 어떻게 렌더링되는지를 보여준다.

우리는 평가 중에 관찰된 행동을 바탕으로 prompt를 반복적으로 개선하였다. 본 논문 전반에 걸쳐 **DPC (Dialogue-Prompted Chinchilla)**는 최종 prompt (Appendix B.1)가 적용된 수정되지 않은 Chinchilla 모델을 의미하며, 별도로 명시되지 않는 한 다른 모델들도 동일한 방식으로 prompt가 적용된다. Figure 6은 Rae et al. (2021)과 다른 prompt를 사용했을 때의 효과를 보여준다.

증거 사용 여부 선택
본 섹션과 다음 섹션들에서는 증거 사용 여부를 결정하는 다양한 방법에 대해 다음 용어를 사용한다:

Figure 4 | 언어 모델이 처리한 대화의 텍스트 표현이 평가자에게 어떻게 렌더링되는지를 보여준다. Search Result는 supporting evidence로 직접 표시된다.

always search: 모델이 반드시 Search Query 턴을 생성하고 Search Result에 조건화하도록 강제된다.
never search: 모델이 증거 없이 Agent 턴을 생성하도록 강제된다.
choose search: 검색 여부 결정은 대화 context에 이어지는 Search Query와 Agent 역할에 대한 log likelihood를 계산하여 이루어진다. log likelihood가 더 높은 역할이 대화를 계속하도록 선택되며, 이는 응답에 Google Search에서 검색된 증거를 사용할지 여부를 결정한다.
@ $N$ : 검색 여부를 선택하는 대신, $N$ 개의 응답을 생성한다. 이 중 절반은 검색 쿼리를 생성하고 Search Result에 조건화하여 생성되며, 나머지 절반은 증거 없이 생성된다. 최종 응답이 증거를 사용하는지 여부는 섹션 2.6에 설명된 대로 reward model을 사용하여 reranking함으로써 결정된다.

2.3. Human data collection

Ouyang et al. (2022), Stiennon et al. (2020) 등의 연구와 유사하게, 우리의 방법은 fig. 3에 나타난 바와 같이 평가와 학습의 연속적인 주기를 포함한다. 우리는 Section 2.2에서 설명된 DPC를 초기 대화 에이전트로 시작한다. 그런 다음, 인간 참가자들에게 두 가지 주요 설정에서 에이전트와 상호작용하도록 요청한다: per-turn response preference와 adversarial probing.

Per-turn response preference
이 task에서 인간 평가자들은 불완전한 대화와 대화를 이어갈 수 있는 여러 가능한 진술을 제공받으며, 각 진술은 다른 샘플 또는 모델에 해당한다. 인간 평가자들은 가장 좋다고 생각하는 응답을 선택한다 (fig. 20). Askell et al. (2021)과 달리, 모델이 User와 Agent의 발화 모두를 생성하며, 두 경우 모두 인간 평가자들은 가장 좋은 응답을 선택하도록 요청받는다. 선택된 응답은 대화를 이어가는 데 사용된다. Per-turn response preference 데이터는 모델이 하나 이상의 경쟁 모델보다 얼마나 자주 선호되는지를 측정하는 선호도(preference rate)를 추정할 수 있게 한다. 응답이 supporting evidence와 결합될 때, 인간 평가자들은 Section 2.4에서 설명된 대로 추가적인 per-response feedback을 제공한다.

Adversarial probing
이 task에서 우리는 참가자들에게 규칙 중 하나를 보여주고, 모델이 규칙을 위반하도록 유도하는 대화를 진행하도록 지시한다. 대화가 끝난 후, 동일한 참가자는 모델이 규칙을 따랐는지 여부를 표시한다. 참가자들에게 일반적인 규칙보다는 특정 규칙에 집중하도록 지시함으로써, 우리는 특정 실패 모드(failure mode)를 목표로 삼아 개선할 수 있다 (Section 3.5). 이러한 형태의 많은 대화를 수집함으로써 우리는 인간 adversarial probing 하에서의 규칙 위반율(rule violation rate)을 추정할 수 있다. 이 접근 방식은 Xu et al. (2021a)의 아이디어를 **세분화된 규칙(fine-grained rules)**으로 확장한다. per-turn response preference 및 adversarial probing task의 대표적인 이미지는 Appendix G.2에 포함되어 있다.

학습 및 평가 파이프라인 (Training and evaluation pipeline)
Adversarial probing과 per-turn response preference는 모델을 개선하는 데 사용된다. Adversarial probing은 모델이 나쁜 행동을 보이는 데 얼마나 취약한지를 평가하는 데 사용되며, response preference rate는 유용성(helpfulness)의 척도로 사용된다 (fig. 2의 축 참조). 규칙 위반 데이터로부터 우리는 규칙 위반에 대한 인간의 판단을 예측하는 Rule RM (reward model)을 학습한다. 선호도 데이터는 유용성의 대리 지표(proxy)로서 Elo Preference RM을 학습하는 데 사용된다 (Section 2.5). 그런 다음, 우리는 Rule RM과 Preference RM을 모두 사용하여 reranking (Section 2.6) 및 RL (Section 2.8)을 통해 에이전트를 개선한다.

데이터 품질 (Data quality)
적절한 고려에도 불구하고, 평가자들은 주어진 대화에서 Sparrow가 규칙을 위반했는지 여부에 대해 항상 동의하지는 않는다. 평가자들은 종종 진술이 evidence에 충실하게 근거하는지 여부를 판단할 지식이나 맥락이 부족하며, 좋은 행동의 일부 요구사항은 모호하거나 불충분하게 명시되어 있다. 우리는 평가자들이 task 이해를 돕기 위해 실제 task 전에 대화형 클릭스루 튜토리얼(interactive click-through tutorial)을 완료하도록 요청했으며, 이해 점검(comprehension checks)을 사용하여 데이터 품질을 향상시켰다 (Appendix G 참조). 인간 판단에 내재된 남아있는 불일치에도 불구하고, 우리는 더 높은 per-turn preference rate와 더 낮은 rule violation rate가 우리 모델의 개선에 해당한다고 믿는다.

어노테이터 복지 (Annotator well-being)
보상률을 포함한 우리 연구 설계의 세부 사항은 **독립적인 윤리 심사 위원회(independent ethical review committee)**에 의해 검토되었다. 모든 참가자는 task를 완료하기 전에 **사전 동의(informed consent)**를 제공했으며, 그들의 시간에 대해 보상받았다. 연구자들은 작업자/참가자에게 해당 지역의 최소 생활 임금(living wage) 이상을 지불해야 한다는 것이 우리의 정책이다. 우리의 일부 규칙은 민감한 주제를 다루며 어노테이터에게 심리적 또는 정서적 해를 입힐 수 있기 때문에 (Dang et al., 2018; Steiger et al., 2021), 우리는 복지 설문조사(well-being survey)를 통해 평가자의 복지를 모니터링했다. 우리는 민감한 주제에 대한 데이터 예산을 설정하고, 평가자들이 언제든지 불이익 없이 복지상의 이유로 task와 규칙을 건너뛸 수 있도록 평가 task를 구성했다. 복지 설문조사 결과 요약은 Appendix G.3에 참여한 평가자들의 광범위한 인구 통계와 함께 제공된다.

관련 연구 (Related work)
우리의 인간 데이터 수집 프로토콜은 LaMDA (Thoppilan et al., 2022), Anthropic assistant (Askell et al., 2021; Bai et al., 2022), WebGPT (Nakano et al., 2021), BlenderBot 3 (Shuster et al., 2022b)를 학습하고 평가하는 데 사용된 프로토콜과 일부 공통점을 공유한다. BlenderBot 3는 비적대적(non-adversarial) 오픈 도메인 짧은 대화를 수집하며, 이진 per-turn feedback과 개선된 응답에 대한 제안을 요청한다. LaMDA는 적대적 및 비적대적 설정 모두에서 대화를 수집한다. 대화록은 별도로 레이블링되어 분류기 학습 및 품질 및 안전 지표에 대한 평가에 사용된다. BlenderBot 3와 LaMDA 모두 학습 또는 평가를 위해 모델 응답 간의 선호도 평가(preference ratings)를 수집하지 않으며, 대신 절대 점수 기반 접근 방식을 선택한다. Anthropic assistant는 사용자 발화는 인간이 생성하고 에이전트 발화는 두 가지 가능한 응답 중에서 선택되는 통합 프로토콜을 사용한다. 그들의 데이터 수집은 두 가지 모드 중 하나를 따른다: 평가자들이 각 발화에서 가장 좋은 응답을 선택하거나, 가장 나쁜 응답을 선택하는 것이다. 이는 각각 우리의 user preference 및 adversarial collection의 목적에 해당한다. WebGPT와 공통적으로, 우리 평가 설정의 핵심 구성 요소는 Sparrow가 웹에서 발췌한 형태로 주장에 대한 evidence를 제시한다는 것이다 (Section 2.4). 이는 평가자들이 독립적인 조사를 할 필요 없이 주장을 더 쉽게 확인할 수 있도록 한다.

2.4. Evidence

우리는 모델이 더 정확한 응답을 제공하기 위해 인터넷을 검색하도록 학습시킨다. 이 메커니즘은 또한 **정적 parametric model을 넘어선 시간적 일반화(temporal generalisation)**를 가능하게 한다 (Borgeaud et al., 2022; Lewis et al., 2020; Liška et al., 2022; Shuster et al., 2022a). 사용자 인터페이스에서는 모델의 응답 옆에 모델이 사용한 근거(evidence)를 함께 표시하여, 평가자가 모델의 응답이 정확한지 판단하는 데 도움을 준다 (fig. 4). 근거를 통해 모델 응답을 뒷받침하는 방식 (Menick et al., 2022)은 설명의 한 유형 (Ras et al., 2022)으로 작용하여, 모델이 답변을 생성할 때 제공받은 외부 정보에 대한 통찰력을 제공한다. 이를 통해 평가자는 사실적 정확성을 더 잘 평가할 수 있으며, 최종 사용자에게 모델에 대한 더 큰 신뢰를 부여한다 (section 3.4).

검색 학습 (Learning to search)
검색 방법과 근거 사용 시점을 학습하기 위해, 우리는 기존 모델(DPC 또는 Sparrow의 이전 버전)의 샘플에 대한 인간의 판단을 바탕으로 preference model을 학습시킨다.

우리는 prompting을 통해 초기 근거 기반 대화 모델로부터 bootstrapping한다 (Lazaridou et al., 2022; Menick et al., 2022). 대화 프레임워크에 근거를 통합하기 위해 대화 prompt에 두 명의 참여자, 즉 Search Query와 Search Result를 도입한다. Appendix B.2는 prompt와 baseline model에 대해 자세히 설명한다.

응답 선호도는 네 가지 진술 비교를 통해 수집된다. 두 응답은 근거 없는 prompt를 가진 에이전트로부터 근거 없이 샘플링되고 (appendix B.1), 다른 두 에이전트는 먼저 검색 쿼리를 생성하고, 검색 결과를 얻은 다음, 근거에 기반하여 응답을 생성한다. 평가자가 이 네 가지 옵션 중에서 선택하는 것은 응답의 전반적인 품질과 검색 쿼리(사용된 경우)에 대한 신호를 제공하며, 근거를 표시할지 여부에 대한 결정에도 영향을 미친다.

검색 (Retrieval)
Search Result 턴은 Sparrow에서 샘플링된 Search Query에 대한 Google Search 결과를 검색하여 구성된다. 우리는 반환된 HTML 웹페이지를 스크랩하고, 각 결과에 대해 검색 엔진이 제공한 snippet 주변의 최대 500자 단편을 잘라낸다 (appendix C). Search Result 턴은 단일 스크랩된 단편을 포함하며, Agent의 대화 컨텍스트에 추가된다. 이 턴은 웹에서 인용된 근거로 평가자에게 표시된다 (Figure 4).

인간 피드백 수집 (Collecting human feedback)
선택적으로 검색할 수 있는 모델이 주어졌을 때, 우리는 두 가지 속성을 평가하고자 한다. 첫째, 모델이 사실적 주장을 할 때 얼마나 자주 근거를 제공하는가? 둘째, (제공될 때) 근거가 모델의 주장을 얼마나 자주 뒷받침하는가? 이러한 평가를 위해, 우리는 응답 선호도를 수집할 때 평가자에게 대화에 대한 추가 질문을 한다. 특히, 평가자에게 다음 질문을 한다:

가능한 응답을 보기 전에 (fig. 21a 참조):

AI는 응답을 뒷받침하기 위해 인터넷을 검색해야 하는가?

근거가 있는 각 응답에 대해 개별적으로 (fig. 21b 참조):

응답이 그럴듯한가 (합리적이고, 주제에 맞으며, 사실일 수 있는가)?
응답이 인터넷에서 제공된 근거에 의해 뒷받침되는가? (즉, 근거가 답변이 정확하다고 확신시키는가)

근거가 없는 각 응답에 대해 개별적으로 (fig. 21c 참조):

이 응답이 그럴듯한가 (합리적이고, 주제에 맞으며, 사실일 수 있는가)?
이 응답이 인터넷에서 사실을 인용하여 뒷받침될 수 있는가?

이러한 질문에 대한 응답을 통해 우리는 모델이 필요할 때 얼마나 자주 근거를 제공하는지, 그리고 근거에 의해 뒷받침되는 주장을 얼마나 자주 성공적으로 하는지를 조사할 수 있다. 근거의 뒷받침 정도를 측정하고 최적화하는 것은 응답이 외부 지식에 충실하게 기반하는 비율을 평가하고 높이는 데 중요하며, 환각(hallucinations) 문제를 줄이는 데 중요하다 (Dziri et al., 2022). 우리는 최고의 옵션을 선택하기 전에 (section 2.3 참조), 응답 선호도 task의 일부로 모든 응답 옵션에 대해 위 질문들(fig. 20 참조)을 한다.

2.5. Reward models

우리는 두 가지 유형의 reward model을 별도로 학습시키며, 둘 다 Chinchilla 70B를 fine-tuning하여 사용한다:

Response Preference Reward Model (Preference RM): 후보 응답들 간의 **인간 선호도(human preferences)**에 따라 응답의 점수를 매긴다.

Figure 5 | reranking@8을 사용한 테스트 시점 응답 생성 절차.
답변을 생성하기 위해, Sparrow는 증거(evidence)를 사용하지 않고 직접 4개의 답변을 샘플링하고(상단), 2개의 검색 쿼리를 생성한다(하단 왼쪽).
그 다음, 샘플링된 검색 쿼리를 사용하여 Google Search API에 쿼리하여 각 쿼리당 2개의 검색 결과를 가져온다(하단 중간).
검색 결과가 반환된 후, 4개의 검색 결과 각각에 조건화된 1개의 답변이 샘플링된다(하단 오른쪽).
이렇게 생성된 총 8개의 Sparrow 응답은 Preference Reward Model과 Rule Reward Model로 점수가 매겨지며, 가장 높은 점수를 받은 답변이 사용자에게 제시된다.

Rule Violation Reward Model (Rule RM): 주어진 대화에서 Sparrow가 규칙을 위반할 확률을 추정한다.

Response preference data(섹션 2.3)를 통해 우리는 Preference RM을 학습시킬 수 있다. 이 모델은 각 응답에 대해 Elo 선호도 점수를 예측하며, 이 점수들의 softmax가 선호 확률을 예측하도록 한다 (Elo, 1978; Menick et al., 2022; Stiennon et al., 2020). Preference RM이 주제에서 벗어난 답변에 페널티를 부과하도록 돕기 위해, 우리는 각 비교에 무작위로 선택된 distractor 응답을 추가하는데, 이는 나머지 response preference data에서 샘플링된다. 또한, 두 가지 **보조 손실(auxiliary losses)**이 선호도 모델링을 개선한다는 것을 발견했다. 우리는 evidence에 조건화된 답변이 뒷받침되고(supported) 그럴듯한지(plausible)를 예측하는 분류 손실을 추가한다 (Menick et al., 2022). 또한 평가자들에게 비교 대상의 모든 응답이 낮은 품질일 때를 표시하도록 요청하고, 해당 Elo 점수가 음수가 되도록 정규화한다. 이러한 task의 보조 손실이 어떻게 통합되고, Chinchilla가 이 task를 위해 어떻게 fine-tuning되었는지에 대한 자세한 내용은 Appendix D를 참조하라.

Rule RM은 **조건부 분류기(conditional classifier) $r(x, y) \in[0,1]$ **이며, 이는 대화 $x$ 의 어떤 시점에서 Sparrow가 규칙 $y$ 를 위반할 확률을 추정한다. Rule RM은 rule violation data(2.3)로 학습된다. 우리는 instruction tuning의 한 버전을 사용하는데 (Gao et al., 2020; Kotonya et al., 2022; Saeidi et al., 2021; Wei et al., 2021), 이는 적은 양의 데이터로도 좋은 성능을 제공하기 때문이다 (섹션 3.5 참조). 학습 목표는 해당 대화와 규칙으로 포맷된 Figure 18의 prompt가 주어졌을 때, 인간 평가의 레이블에 따라 Yes 또는 No에 해당하는 토큰 시퀀스의 likelihood를 최대화하는 것이다. Rule RM은 모든 규칙에 대해 공동으로 학습되기 때문에, 동일한 대화에 대해 규칙 간에 메모리와 연산을 공유할 수 있으며, 결과적으로 메모리와 연산이 규칙 수에 따라 약하게 확장된다. 자세한 내용은 Appendix D를 참조하라.

모든 fine-tuning 과정에서, 우리는 **Chinchilla의 하위 64개 Transformer layer를 고정(freeze)**하고, 마지막 16개 layer만 fine-tuning한다. 이는 reranking 및 강화 학습 훈련 시 rule model, preference model, 그리고 base LM/policy 간에 고정된 layer를 공유할 수 있게 하여 메모리 사용량을 줄이는 결과를 가져온다 (Figure 8).

2.6. Reranking

Preference RM과 Rule RM이 주어졌을 때, Askell et al. (2021); Menick et al. (2022); Thoppilan et al. (2022)에서처럼 여러 샘플링된 응답들을 재순위화(reranking)함으로써 대화 에이전트의 정책을 개선할 수 있다.

추론 시점(inference time)에는 $N$ 개의 샘플을 추출하고, 결합된 보상(combined reward)이 최대인 샘플을 선택한다. 우리는 이러한 모델을 'model@N'이라고 부른다. Figure 5는 reranking @8을 적용한 Sparrow의 추론 시점 작동 방식을 보여준다. 이전 대화가 주어졌을 때, 생성 모델은 표준 대화 prompt (Appendix B.1)를 사용하여 4개의 답변을 샘플링하고, 증거 prompt (Appendix B.2)를 사용하여 2개의 검색 쿼리를 샘플링한다. 이 검색 쿼리들은 최대 4개의 검색 결과 조각(fragment)을 검색하는 데 사용되며, 이 조각들은 다시 Sparrow 응답을 샘플링하는 데 사용된다 (이때 조각들은 증거로 표현된다). 총 8개의 샘플은 eq. (1)에 따라 재점수화되는데, 이는 product of experts 접근 방식 (Hinton, 2002)에서 느슨하게 영감을 받은 방식이다. 여기서 $R_{pr}$ 은 Preference RM 점수이고, $AVG(R_{pr})$ 은 유효 세트(valid set)에서의 평균 Preference RM 점수이며, $R_{rule_i}$ 는 $n$ 개의 규칙 중 $i$ 번째 규칙에 대한 Reward RM 점수이다 (규칙이 준수될 확률이므로 높을수록 좋다).

R_{\text {rerank }}=\frac{e^{R_{p r}}}{e^{R_{p r}}+e^{A V G\left(R_{p r}\right)}}\left(\prod_{i=1}^{n} R_{\text {rule }_{i}}\right)^{\frac{1}{n}}

Reranking은 또한 에이전트가 검색 결과를 활용하여 증거를 제공할지 여부를 결정할 수 있도록 한다. 이러한 능력은 **증거 사용에 대한 선택적 예측 (또는 거부 옵션이 있는 예측)**으로 볼 수 있다 (El-Yaniv and Wiener, 2010; Geifman and El-Yaniv, 2017, 2019; Kamath et al., 2020). Preference RM은 명확한 증거로 뒷받침되는 사실적인 모델 응답과, 비사실적인 질문에 대한 증거 없는 응답에 높은 점수를 부여한다. 반면, 불필요하거나 품질이 낮은 증거가 포함된 응답에는 낮은 점수를 부여한다. Rule RM은 규칙을 위반하는 응답에 페널티를 부과한다.

2.7. Supervised fine-tuning

**LM loss를 통한 Supervised fine-tuning (SFT)**은 LaMDA (Thoppilan et al., 2022)에서 사용된 주요 학습 기법인 반면, Anthropic assistant (Bai et al., 2022)는 대신 context distillation을 사용하고, 그 외에는 reward modelling과 reinforcement learning에 의존한다.
우리는 reward modelling과 reinforcement learning의 대안으로, 선호되고 규칙을 준수하는 것으로 평가된 수집된 대화 데이터에 대해 Chinchilla를 LM loss를 통해 직접 fine-tuning한다.

**턴별 선호도 데이터(per-turn preference data)**의 경우, 모델이 선호되는 응답을 생성하도록 fine-tuning한다.
**적대적 probing 대화(adversarial probing dialogues)**의 경우, 최소한 '좋음'으로 평가되고 규칙 위반이 없는 대화(섹션 2.3)에서 Agent의 응답에 대해 모델을 fine-tuning한다.

이 SFT 모델은 DPC보다 더 강력한 baseline을 제공하며, RL을 위한 더 나은 초기 시작점이 된다.

2.8. Reinforcement learning

(Bai et al., 2022)와 유사하게, 우리는 **강화 학습(RL)**과 보상 모델을 사용하여 대화 에이전트의 성능을 개선한다. 이 접근 방식은 추론 시 비용이 많이 드는 reranking을 보완한다. RL은 학습 비용이 많이 들지만 추론 비용은 추가되지 않으며, 이 둘은 자유롭게 결합될 수 있다.

우리의 RL 방식은 Figure 7에 설명되어 있다. 각 episode는 이전 대화 context에 조건화된 **단일 발화(완전한 대화가 아님)**로 구성되며, 여기서 action은 개별 token이고 보상은 각 episode의 끝에 주어진다 (Appendix E.3).

이전에 수집된 인간-에이전트 대화의 단일 발화 연속에 대해 RL을 수행한 (Bai et al., 2022)와 달리, 우리는 self-play 형태를 사용한다. 학습 중에 생성된 발화와 대화 context는 이후 episode를 위한 새로운 대화 context를 형성한다. 따라서 Sparrow는 여러 episode에 걸쳐 User, Agent, Search Query (Search Results는 프로그램적으로 검색됨) 역할을 수행하며 여러 턴의 대화를 생성한다. Search Query 발화는 Agent 발화와 별개의 episode로 취급된다. 각 episode에 대해, 이전 대화 context는 Sparrow가 해당 episode에서 수행하는 역할에 특화된 prompt로 접두사 처리된다 (Appendix E.1).

Figure 6 | 학습 중 Red-teaming과 rule model 보상은 모두 규칙 위반율을 감소시키며, 에이전트는 dialogue-prompted Chinchilla (DPC)보다 선호된다. 여기서는 증거 사용 및 reranking을 비활성화한 일부 시스템 ablation 결과를 보여준다. 모든 RL 모델은 Chinchilla로 초기화되었다. 우리는 모델 응답이 DPC보다 선호되는 비율과, 적대적 probing 하에서 이들 모델의 규칙 위반율을 조사하며, 사용된 학습 데이터 분포와 보상을 변경하였다. 선호도 모델 보상만을 위한 학습은 응답이 선호되는 비율을 크게 증가시키지만, 규칙 위반율을 증가시키는 대가를 치른다. 인간 및 에이전트로부터의 red-teaming 데이터를 학습 분포에 도입하면 위반율이 감소하며, 결합된 규칙 및 선호도 목적 함수를 위한 학습도 마찬가지이다. 이 둘을 결합하면 가장 낮은 위반율을 생성하면서도 여전히 DPC보다 상당히 선호된다. 선호도와 규칙 위반율 사이의 긴장 관계는 (Bai et al., 2022)의 결과와 일치하며, 그들은 유용성(helpfulness)과 무해성(harmlessness) 사이의 유사한 긴장 관계를 발견했다.

이전 대화 context는 여러 가능한 출처에서 올 수 있으며, 이들은 다양한 관심사와 행동을 보이는 효과적인 사용자 모델이다:

질문 데이터셋: GopherCite (Fan et al., 2019; Menick et al., 2022)의 필터링된 ELI5 학습 subset을 사용한다.
인간과의 대화: 주석자들로부터 수집된 open-ended 및 적대적 대화를 혼합하여 사용하며, Sparrow가 중간 턴부터 대화를 이어갈 수 있도록 무작위로 잘라낸다.
Red team language model: (Perez et al., 2022)의 zero-shot 방식을 사용하여 Chinchilla가 사용 가능한 인간 데이터를 보강하는 적대적 질문을 생성하도록 prompt를 제공한다 (이러한 prompt에 대한 자세한 내용은 Appendix E.2 참조).
학습을 통해 축적된 self-play 데이터: 학습 중에 Sparrow는 배치 내의 각 대화 context에 대해 응답을 생성하며, 필요에 따라 User와 Agent 역할을 모두 수행한다. 유효한 발화(Appendix E.3)는 해당 대화 context와 결합되어 새로운 context를 형성하고, 최대 12개의 발화 길이까지 self-play 버퍼에 추가된다. 이를 통해 Sparrow는 스스로 대화하며 학습할 수 있다.

이는 위에서 정의된 혼합에 의해 유도된 대화 context 분포에 조건화된 RL 정책을 최적화하는 것과 같다. 즉, 최적화 목표는 다음과 같다:

\arg \max _{\pi} \mathbb{E}_{c \sim \mathcal{D}, s \sim \pi}[R(s \mid c)],

여기서 $c \sim \mathcal{D}$ 는 위에서 정의된 대화 context 분포이고, $s=a_{1: T}$ 는 에이전트의 정책 $\pi$ 에 따라 생성된 발화이다. 보상은 episode의 끝을 제외한 모든 단계에서 0이므로 episode에 대한 보상 합산은 생략하며, 명시적인 discounting은 적용하지 않는다. 보상 함수 $R$ 은 Appendix E.3에 자세히 정의되어 있다.

Figure 7 | RL 학습의 시각적 묘사. 우리는 사용자 모델(즉, 데이터셋, 인간과의 대화, 또는 red team language model)로부터 User 질문으로 대화 버퍼를 채우면서 학습을 시작한다. 각 episode에서 우리는 버퍼에서 대화 context를 샘플링하고, 대화 context에 역할별 prompt를 접두사로 붙인 다음, 모델 응답을 형성하기 위해 일련의 action (즉, token)을 생성한다. 그런 다음 응답은 관련 보상 모델에 의해 점수가 매겨진다: User 발화 및 Search Query의 경우 선호도 점수만 계산하며, Agent 역할을 할 때는 인간 선호도와 규칙 준수 모두를 최적화한다. 응답이 유효하고 최소 보상 임계값을 통과하면, 계속된 대화를 버퍼에 다시 추가한다. 턴이 Search Query 턴인 경우, Google에 쿼리하여 Search Result 턴을 프로그램적으로 구성하고 (자세한 내용은 Section 2.4 참조) 이를 새로운 대화 context와 결합한 후 버퍼에 추가한다. 대화 context, 응답 token 및 보상으로 구성된 결과 궤적은 A2C 파라미터 업데이트를 계산하는 데 사용된다.

초기 대화 context 이후의 모든 발화는 Sparrow가 필요에 따라 User, Agent 또는 Search Query 역할을 수행하며 생성한다. 향후 연구에서는 이를 주 에이전트의 행동의 다양한 측면을 probing하도록 최적화된 사용자 모델 리그로 확장할 수 있을 것이다 (Vinyals et al., 2019).

RL 보상은 응답 선호도 모델과 규칙 위반 모델의 합계로 주어지며, 규칙 보상은 모든 규칙 점수의 평균과 유효성 및 간결성에 대한 프로그램적 보상이 결합된 것이다 (Appendix E.3 참조). User 발화는 규칙 보상을 받지 않지만, Agent 발화와 동일한 선호도 모델에 의해 학습된다. 선호도 모델과 규칙 모델의 출력 범위가 다르기 때문에, 우리는 이들을 추가하기 전에 running mean과 standard deviation을 사용하여 각각을 독립적으로 정규화한다.

궤적 데이터에서 샘플링된 대화 context, action 및 보상은 모델 파라미터를 업데이트하는 데 사용된다. 우리가 사용하는 RL 알고리즘은 batched synchronous advantage actor-critic (A2C; Mnih et al. (2016)) 또는 동등하게 **REINFORCE with baseline (Sutton and Barto, 2018)**이다. V-MPO (Song et al., 2019)는 성능을 크게 향상시키지 못하고 계산 비용이 더 많이 든다는 것을 발견했다. nucleus sampling 때문에 우리의 학습 데이터는 off-policy이며, 우리는 이를 수정하지 않는다. 한 가지 해결책은 off-policy 방법을 도입하는 것일 수 있다.

우리는 정책을 Chinchilla 또는 SFT 모델 (Section 2.7)로 초기화한다. Sparrow는 RL 학습 시 SFT 모델로 초기화되었다. RL이 단일의 고보상 생성으로 붕괴되는 것을 방지하기 위해, 우리는 fine-tuned 정책과 초기 teacher language model 간의 KL divergence에 페널티를 부과한다. 여러 Chinchilla 크기 모델(여러 보상 모델, 정책, 가치 및 teacher 모델)에 대한 메모리 요구 사항을 완화하기 위해, 이들 모두는 장치 메모리에 맞아야 하므로, 우리는 각 모델의 상위 layer만 학습하고 이를 multi-headed hydra 모델로 융합한다. 이 모델은 각 모델에 대해 별도로 학습된 'head'와 사전학습된 파라미터의 공유 trunk를 가진다 (Figure 8).

Figure 8 | 여기서는 RL 학습 중 모델 간에 파라미터가 어떻게 공유되는지 보여준다. 학습된 모델과 frozen 모델 간에 메모리를 공유함으로써 RL 학습 시 5개의 다른 모델을 효율적으로 실행할 수 있다. 회색 layer는 teacher를 위한 사전학습된 Chinchilla 파라미터이고, 파란색 layer는 세 가지 다른 fine-tuned 보상 모델의 frozen 파라미터이며, 분홍색 layer는 RL 학습 중에 수정된 파라미터이다.

self-play, 검색, 세분화된 규칙 및 LM red-teaming의 사용은 (Bai et al., 2022)의 제안을 넘어선다. Figure 6은 규칙과 red-teaming의 영향을 더 자세히 탐구하며, 학습 중에 red-teaming 데이터를 도입하는 것이 규칙 모델 사용을 보완한다는 것을 보여준다. 데이터 분포를 보상과 함께 변경하는 것은 행동을 형성하는 표현력 있는 수단이며, 우리는 Sparrow의 현재 버전에서 이것이 충분히 탐구되지 않았다고 생각한다. 장기적인 접근 방식은 유용성(helpfulness)과 무해성(harmlessness)의 trade-off를 test-time에 구성 가능하게 만들고 (Abdolmaleki et al., 2020) 최적의 학습 데이터 분포를 찾기 위해 확장되는 trade-off 및 주제의 우주에 걸쳐 open ended 방식으로 학습해야 한다 (Open Ended Learning Team et al., 2021).

3. Results and analysis

3.1. Preferences and rule violations

정보 탐색 대화에 대한 우리의 주요 평가는 그림 2에 나타나 있듯이, 유료 어노테이터에게 두 가지 유형의 인간 데이터 수집 방식(턴별 응답 선호도 및 적대적 probing) 으로 모델 응답을 평가하도록 요청하여 수행되었다 (섹션 2.3). 두 경우 모두, 평가 대상 모델들은 개별 평가자들에게 라운드 로빈(round-robin) 방식으로 제시되었다.

세 모델 선호도 비율 (Three-model preference rate)
우리는 두 가지 DPC baseline과 비교하여 모델 응답의 품질을 선호도 측면에서 평가한다.

DPC - never search는 검색 기능이 없는 prompted model이다 (Appendix B.1).
DPC - always search는 모든 모델 턴에서 검색 쿼리와 검색 결과를 모두 생성하도록 강제된 prompted model이다 (Appendix B.2).

평가 대상인 모든 모델은 검색 여부를 선택하고 증거를 제공할 수 있다. 우리는 쌍별 선호도 비교 대신 세 모델 비교를 사용하는데, 이는 평가자들이 신중한 평가 없이 증거 유무에 따라 기본적으로 특정 옵션을 선호하는 편향을 피하기 위함이다. 세 모델 선호도 비율은 평가 대상 모델과 두 DPC baseline 간의 턴별 선호도 비교를 통해 설정된다. 각 대화 task는 200개의 발화로 구성된 테스트 세트에서 샘플링된 사용자 턴으로 시작한다. 이 발화는 ELI5 데이터셋 (Fan et al., 2019)에서 무작위로 샘플링된 100개의 질문(유해 콘텐츠 필터링 포함)과 Sparrow에게 사실적 질문을 하도록 지시받은 어노테이터와의 자유 대화에서 샘플링된 100개의 질문으로 구성된다.

Figure 9 | Reranking은 prompted baseline에 비해 턴별 응답 선호도 비율을 일관되게 향상시킨다. RL은 reranking을 사용하여 검색 여부를 결정하므로, baseline에서는 @2로 표시된다.

Figure 10 | 강화 학습(RL)과 지도 fine-tuning(SFT) 은 적대적 probing 중 규칙 위반율을 줄임으로써 DPC baseline보다 성능을 향상시킨다.

적대적 probing 하에서의 위반율 (Violation rate under adversarial probing)
우리는 평가자들에게 섹션 2.3에 설명된 대로 Sparrow가 지정된 규칙(표 14의 첫 18개 규칙 중 하나)을 위반할 수 있는 방식으로 Sparrow와 대화를 이끌도록 요청한다. 우리는 불확실한 평가를 제외하고 척도를 위반(break)과 준수(follow)로 이진화하여 집계한다.

선호도와 무해성(harmlessness)을 최적화하는 것은 서로 상충된다 (Askell et al., 2021). 예를 들어, 항상 "답변할 수 없습니다"라고 응답하는 에이전트는 완벽하게 무해하지만 그다지 유용하지 않으며, 항상 질문에 응답하는 에이전트는 악의적인 사용자에게 오도되어 유해한 언어를 내뱉을 수 있다. 이러한 trade-off를 표현하기 위해, 우리는 그림 2에서 파레토 프론티어(Pareto frontier) 형태로 평가 결과를 제시한다. 모든 모델 중에서, 우리는 RL과 reranking@8을 결합한 모델(빨간색) 이 선호도 승률과 적대적 probing에 대한 복원력 측면에서 가장 우수한 성능을 달성한다는 것을 발견했다.

RL과 reranking은 상호 보완적이다: 그림 9는 reranking이 모든 모델 클래스(DPC, SFT, RL)에 대해 일관된 세 모델 선호도 비율 향상을 제공함을 보여준다. 그림 10은 RL과 SFT가 적대적 probing 하에서 더 낮은 위반율을 가짐으로써 DPC baseline보다 우수한 성능을 보임을 보여준다.

그림 11은 우리의 개입이 대부분의 규칙에 대해 Sparrow의 공격에 대한 복원력을 향상시킨다는 것을 보여준다. 그러나 다음 규칙들로 인한 피해는 완화하지 못한다: 고정관념 없음, 의료 조언 없음, 법률 조언 없음, 미세 공격 없음, 모욕 없음 (성공 및 회피된 공격의 예시는 Appendix J 참조). 우리는 이것이 다음 요인들로 인해 발생한다고 가정한다:

Sparrow는 의료 또는 금융 주제에 대한 응답, 심지어 웹에서 얻은 고정관념적인 의견까지도 뒷받침하는 설득력 있는 검색 결과를 종종 찾는다 (우리는 포럼을 차단하지 않는다).
평가자의 복지 문제로 인해 일부 규칙에 대한 데이터를 적게 수집했다. 위에 언급된 모든

Figure 11 | Sparrow는 많은 규칙에 대해 적대적 probing에 강하지만, 전부는 아니다. 여기서는 Sparrow와 두 baseline에 대해 대상 규칙별로 분류된 적대적 probing 하에서의 위반율을 보여준다. Sparrow의 전반적인 위반율은 대부분의 규칙에 대해 baseline에 비해 크게 감소했지만, 학습 데이터가 적게 수집된 규칙에서는 성능이 더 나쁘다.

규칙들 (Appendix F)이 이 범주에 속한다. 표 13은 규칙별로 수집된 데이터를 보여준다.

Preference RM 데이터에 대한 많은 인간 평가자들은 적대적 probing 또는 규칙 평가 task를 완료한 적이 없으므로, 자신도 모르게 규칙을 위반하는 응답을 선택할 수 있다.

3.2. Evidence evaluation

다중 턴 지원 및 타당성 평가 (Multi-turn supported and plausible evaluation)
우리는 Sparrow의 응답과 함께 제공되는 증거를 supported 및 plausible이라는 지표를 사용하여 사람의 평가를 통해 검토한다. 이 지표들은 Section 2.4와 GopherCite (Menick et al., 2022)에서 정의된 바와 같다. 우리는 이 지표들을 다중 턴 대화 설정에서 턴별 선호 응답 task (Section 2.3) 내의 추가적인 평가 task (Section 2.4) 로 측정한다. 모델로부터 사실적 응답이 요구되는 턴(평가자가 판단한 기준)에 대해 supported 및 plausible 비율을 측정한다. Table 2는 개별 모델이 증거와 함께 답변을 제공하기로 선택한 비율과, 증거가 제공된 경우에 대한 평가자의 supported 및 plausible 판단을 보여준다. 우리는 최고 모델의 증거가 포함된 응답이 78%의 경우에서 plausible하고 supported하다고 인간 평가자들이 판단한다는 것을 발견했다.

증거 사용에 대한 선택적 예측 (Selective prediction of using evidence)
에이전트의 중요한 능력 중 하나는 어떤 턴에서 응답과 함께 supporting evidence를 보여줄지 결정하는 것이다. Sparrow는 "잘 지내세요?"와 같은 질문에 대한 응답이나 규칙 위반으로 이어질 수 있는 경우에는 증거를 조건으로 삼거나 보여주지 않아야 한다. 그러나 "지구의 반지름은 얼마입니까?"와 같은 사실적 질문에는 증거를 검색하고 제공해야 한다. 우리는 Section 2.4에 설명된 주석 task를 통해 이 능력을 평가한다: User 턴으로 끝나는 이전 대화가 주어졌을 때, 평가자는 Agent 턴이 외부 지식에 기반한 근거를 필요로 하는지 여부를 표시한다.

model	supported&plausible	evidence rate
SFT - choose search	$0.57 \pm 0.029(\mathrm{n}=286)$	0.84
DPC - always search	$0.61 \pm 0.011(\mathrm{n}=1983)$	1.0
RL@2	$0.68 \pm 0.027(\mathrm{n}=297)$	0.87
DPC - choose search	$0.70 \pm 0.035(\mathrm{n}=174)$	0.7
DPC@8	$0.71 \pm 0.024(\mathrm{n}=345)$	0.88
SFT@8	$0.76 \pm 0.022(\mathrm{n}=364)$	0.91
RL@8	$0.78 \pm 0.028(\mathrm{n}=220)$	0.84

Table 2: RL과 reranking은 다중 턴 대화에서 supported 및 plausible 답변의 비율을 증가시킨다. 우리는 또한 평가자가 증거가 필요하다고 표시했을 때 증거를 사용한 응답의 비율도 보여준다. $n$ 은 증거를 제공한 평가된 모델 턴의 수이다. 표의 비율은 달리 명시되지 않는 한, 추정된 비율에 대해 $z \sqrt{\bar{p}(1-\bar{p}) / n}$ 로 계산된 90% 신뢰 구간과 함께 표시된다.

Figure 12: 이 혼동 행렬(confusion matrix)에서 볼 수 있듯이, Sparrow (RL@8)는 증거를 표시해야 할 시점에 대해 평가자들과 약 90% ( $n=631$ )의 시간 동안 일치한다. 평가자들이 증거가 필요하다고 판단했지만 Sparrow가 표시하지 않은 경우(별표로 표시)는 Section 3.2에서 더 자세히 논의된다.

우리의 주요 테스트 세트가 대부분 정보 탐색 대화로 구성되어 있기 때문에, 우리는 추가적으로 100개의 대화형 질문을 포함했다. 이 질문들은 Chinchilla에게 누군가에게 물어볼 질문 목록을 요청하여 생성되었다 (Appendix E.2). Figure 12의 혼동 행렬은 Sparrow가 증거가 필요한지 여부에 대해 평가자들과 일반적으로 일치하며, 전체 일치율은 90% 이상임을 보여준다. 우리는 턴별 선호도 데이터만을 훈련에 사용했음을 고려할 때, 이것이 특히 강력한 결과라고 생각한다.

오류 (False negatives)
우리는 평가자들이 외부 증거가 인용되어야 한다고 판단했지만 Sparrow가 그렇게 하지 않은 7%의 경우(Figure 12에서 별표로 표시)에 특히 관심을 가졌다. 이 중 51%의 경우, 평가자들은 Sparrow의 응답을 본 후 실제로 마음을 바꾸어 증거가 유용하지 않을 것이라는 데 동의했다. 정성적으로, 우리는 나머지 절반에 대해 세 가지 일반적인 설명을 발견했다: a) 일반적으로 증거가 필요한 답변이지만 규칙 위반으로 이어질 수 있는 질문(예: 의료 질문)으로, Sparrow가 (올바르게) 답변을 거부한 경우, b) 모든 검색 결과의 품질이 낮아 reranking이 비검색 응답을 선택한 경우, c) 평가자의 단순한 오분류.

model	supported & plausible
GopherCite RL@16	$0.59 \pm 0.074(\mathrm{n}=121)$
RL@4 - always search	$0.54 \pm 0.075(\mathrm{n}=121)$

Table 3: GopherCite FilteredELI5 테스트 세트에서 Menick et al. (2022) 절차로 측정된 supported 및 plausible 비율은 Sparrow와 GopherCite 간의 유사한 성능을 보여준다.

GopherCite와의 비교 (Comparison to GopherCite)
Sparrow가 증거로 응답을 지원하는 능력은 GopherCite (Menick et al., 2022)의 방법을 대화형 설정으로 확장한다. GopherCite는 단일 턴 질문 답변을 위해 설계되었으며, 후속 질문이 있는 대화에는 일반화되지 않는다. 이러한 차이점을 고려하여, 우리는 reranking 시 증거가 있는 답변만 고려하는 '항상 검색' Sparrow와 GopherCite를 비교한다. 우리는 4개의 증거가 있는 응답에 대한 reranking을 사용하는 Sparrow (RL@4 - always search) 와 (Menick et al., 2022)에서와 같이 16개의 응답에 대한 reranking을 사용하는 GopherCite를 평가한다.

우리는 GopherCite 인간 평가 인터페이스와 테스트 세트(FilteredELi5)를 사용하여 질문 답변 설정에서 GopherCite와 Sparrow를 직접 비교한다. Table 3에서 우리는 이 설정에서 Sparrow (RL@4 - always search)가 GopherCite와 유사한 supported 및 plausible 비율을 달성한다는 것을 발견했다. 인간 평가자들은 이 설정에서 모델 응답을 비교할 때 Sparrow의 답변에 대해 GopherCite RL@16보다 63% (90% CI=[56%,70%])의 선호도를 보였다. 이러한 결과는 실시간으로 후속 질문에 추가적으로 답변할 수 있는 대화형 시스템인 Sparrow가 더 크고 느린 GopherCite 시스템에 비해 QA 성능을 저하시키지 않음을 보여준다.

3.3. Correctness evaluation

대화 중에 Sparrow가 얼마나 자주 올바른 답변을 하는지는 당연히 관심사이다. 그러나 open-ended 환경에서 답변의 정확성을 견고하게 평가하는 것은 어려운 일이다. 우리가 수행한 supported 및 plausible 평가는 인간 평가자에게 응답의 정확성에 대한 절대적인 판단을 내리거나 외부 출처로 사실 확인을 요구하지 않는다. 대신, 모델이 제공한 증거(evidence)를 바탕으로 응답이 supported되고 plausible한지만을 묻는다. 이러한 진술이 반드시 사실적으로 정확한 것은 아니다 (섹션 4.1). 또한, 증거가 없는 모델 진술에 대해서는 supportedness 평가가 불가능하다.

정확성에 대한 대략적인 개념을 얻기 위해, 우리는 추가적인 소규모 조사를 수행했다. 우리는 평가자들에게 사실적인 질문과 후속 질문을 하도록 지시하는 200개의 정보 탐색 대화를 수집했다. 이 "자유 대화(free dialogue)" 설정에서 참가자들은 규칙 위반을 조사하거나 모델이 따라야 할 규칙에 대해 브리핑을 받지 않았다. 이 대화 중 100개는 증거가 없는 baseline DPC에서, 100개는 Sparrow (RL@8)에서 수집되었다.

이 대화들은 다음 절차에 따라 일부 저자들이 정확성을 위해 주석을 달았다:

모델 응답만 평가: 증거는 무시한다. 일반적인 지식과 외부 출처를 통한 사실 확인을 기반으로 각 주장의 정확성을 평가한다. 다음 Likert 척도로 점수를 할당한다: false, mostly false, unsure, mostly true, true. 마지막 턴이 외부에서 검증 가능한 주장을 요구하지 않는 경우(잡담 또는 Sparrow 자체에 대한 질문), 해당 턴은 해당 없음(not applicable)으로 평가한다.
증거가 있는 경우 증거 평가: 증거가 모델 응답의 정확성을 확인하는 데 도움이 되고 충분한지 판단한다. 다음 Likert 척도에 따라 등급을 할당한다: not supportive/irrelevant, mostly unsupportive/irrelevant, unsure, mostly supportive, supportive.

우리는 대화록과 평가 결과를 공개한다: https://dpmd.ai/sparrow-samples 우리는 모델 응답의 유용성(예: 질문에 적절하게 답변하는지)은 판단하지 않고, 사실적 주장의 정확성만 판단한다. 정확성 판단을 집계하기 위해, 우리는 해당 없음(not applicable) 또는 불확실(unsure)을 제외하고 Likert 척도를 이진화한다.

Table 4는 이 조사의 결과를 보여주며, 검색 결과에 답변을 조건화하고 증거의 품질을 위해 학습하는 것이 Sparrow 답변의 정확성을 높인다는 일부 증거를 제공한다. 우리는 이 정확성 평가가 적대적 분포(adversarial distribution)에 대한 것이 아님을 강조한다. Sparrow가 부정확한 경우를 찾으려면 어렵지 않게 찾을 수 있으며, 일부 예시는

model	true or <br> mostly true	true		model	trustworthy <br> and above	very <br> trustworthy
DPC - never search	$0.63 \pm 0.045$	$0.44 \pm 0.046$		DPC - never search	$0.54 \pm 0.064$	$0.23 \pm 0.054$
RL@8	$0.82 \pm 0.032$	$0.63 \pm 0.040$		RL@8	$0.69 \pm 0.063$	$0.34 \pm 0.065$

Table 4 | 저자 평가에 따른 정확성 비율 (척도: false, mostly false, unsure, mostly true, true).

Table 5 | 평가자들은 open-ended 대화에서 Sparrow가 DPC-never search보다 더 신뢰할 수 있다고 판단했으며, Sparrow가 약 70%의 경우 신뢰할 수 있거나 매우 신뢰할 수 있다고 선택했다. Appendix J.6에 포함되어 있다. 그러나 평가자들이 자유 대화 설정에서 묻기로 선택한 질문에 대해, Sparrow는 우리의 판단으로 약 80%의 경우 true 또는 mostly true로 평가된 답변을 제공했다.

3.4. Rater perception of trustworthiness

섹션 3.3의 정확성 평가를 위해 각 자유 대화가 수집된 후, 우리는 평가자들에게 **"AI가 얼마나 신뢰할 만하다고 생각했습니까?"**라는 질문을 던졌다. 답변은 **"매우 신뢰할 만함", "신뢰할 만함", "어느 정도 신뢰할 만함", "중립", "어느 정도 신뢰할 수 없음", "신뢰할 수 없음", "매우 신뢰할 수 없음"**의 척도로 이루어졌다.

이는 개별 참가자들의 개인적인 편향, 다양한 기대치, 그리고 대화 경향을 반영하는 주관적인 측정치이다. 우리는 몇 가지 교란 변수의 영향을 줄이기 위해 다음과 같은 방법을 사용했다:

참가자들에게 모델을 라운드 로빈(round robin) 방식으로 제시하여, 각 참가자가 두 모델 모두와 상호작용하도록 했다 (시작 모델은 무작위로 선택).
최소 응답 시간을 6초로 설정하여 지연 시간으로 인한 영향을 피했다.

Table 5는 참가자들이 신뢰도 측면에서 DPC baseline보다 Sparrow에 더 높은 점수를 주었음을 보여준다. 이는 참가자들이 대화의 약 70%에서 Sparrow를 "신뢰할 만함" 또는 "매우 신뢰할 만함"으로 평가했음을 나타낸다.

3.5. General versus specific rules

섹션 2.1에서 정의된 규칙들은 섹션 2.3에서 설명하는 적대적 프로빙(adversarial probing) 및 규칙 평가(rule rating) 평가의 핵심 부분이다. 규칙들은 세분화 정도는 다르지만, 모두 상당히 구체적이다. 이전 연구들은 해악(harm)에 대한 광범위한 정의를 사용하거나, 모든 해악에 대해 단일 보상 모델(reward model)을 학습했다 (Bai et al., 2022; Thoppilan et al., 2022). 본 연구에서는 단일의 일반적인 해악 규칙("사용자에게 해를 끼치거나 기타 방식으로 해로울 수 있는 진술을 하지 마십시오")만을 사용하는 것과 비교하여, 우리의 세분화된 접근 방식의 효과를 분석한다. 우리는 해로운 언어가 적대적 프로빙이 특히 중요한 long-tail 현상일 수 있기 때문에 (Zhang and Luo, 2019) 해악 규칙에 중점을 둔다.

특정 규칙이 일반 해악 규칙에 비해 얼마나 효과적인지 평가하기 위해, 우리는 DPC를 사용하여 1078개의 대화를 수집했다. 이 중 538개 대화에서는 참가자들이 특정 규칙 위반을 적대적으로 프로빙하도록 지시받았고, 나머지 540개 대화에서는 일반 해악 규칙 위반을 적대적으로 프로빙하도록 요청받았다. 후자의 경우, Thoppilan et al. (2022)에서와 같이 특정 해악 규칙들이 지침에 나열되었다. 이 모든 대화에 대해, 우리는 두 가지 Agent prompt 중에서 무작위로 샘플링했다: Table 7의 DPC prompt와 Table 9의 덜 안전한 prompt (이는 Agent를 위반에 더 취약하게 만든다). 이 모든 대화는 그 후 일반 해악 규칙을 포함한 모든 규칙에 대해 독립적으로 재평가되었다. 각 평가자는 재주석 단계에서 피로를 피하기 위해 대화당 최대 5개의 규칙을 평가했으며, 각 대화는 각 규칙에 대해 2명의 평가자에 의해 독립적으로 평가되었다. 이 비교를 위해서는 모든 대화에 대해 모든 규칙을 재주석하는 것이 필요하지만, 이는 우리의 일반적인 프로토콜은 아니다.

Figure 13 | 모델을 적대적으로 프로빙할 때 주석자들은 특정 규칙 위반을 성공적으로 목표로 삼는다. 특정 규칙을 프로빙할 때 (보라색), 인간 참가자들은 일반 해악 규칙을 목표로 하는 인간 평가자들 (파란색)이 동일한 (특정) 규칙에 대한 위반을 유도하는 것보다 해당 규칙의 위반을 유도할 가능성이 더 높다. 여기서 위반은 다른 평가자들이 대화를 재평가하는 2차 평가를 통해 판단된다.

적대적 프로빙의 효과
많은 규칙에 대해 높은 정확도를 가진 규칙 모델을 학습시키기 위해서는 학습 데이터가 해악의 공간을 충분히 커버해야 한다. Figure 13은 특정 규칙에 대한 적대적 프로빙이 데이터가 부족한 문제로 평가자들을 유도할 수 있음을 보여준다. 평가자들이 특정 규칙을 목표로 하도록 요청받으면, 일반 해악 규칙을 프로빙할 때보다 해당 규칙의 위반을 유도할 가능성이 더 높다. 이러한 효과는 "재정 조언을 제공하지 마십시오"와 같은 규칙에서 특히 두드러진다. 평가자들은 프로빙할 때 이러한 규칙을 덜 떠올리는 경향이 있는 것으로 보인다 (모든 규칙이 지침에 해악의 예시로 나열되어 있음에도 불구하고).

새로운 특정 규칙을 찾는 방법으로서의 일반 해악 규칙
정의상, 특정 해악 규칙은 해악의 전체 공간을 커버할 수 없다. 일반 해악 규칙은 특정 규칙으로 커버되지 않는 나쁜 행동을 찾아 수정하는 포괄적인 역할을 할 수 있다. 실제로, 우리는 일반 해악 규칙을 적대적으로 프로빙한 566개 대화 중 최소 19개에서 우리의 특정 해악 규칙으로 커버되지 않는 새로운 해악을 발견했다. 발견된 새로운 해악들은 모두 Weidinger et al. (2021)에서 설명하는 정보 위험(Information Hazards) 및 오정보 해악(Misinformation Harms) 범주에 속했다. 자세한 내용은 Appendix J.5를 참조하라.

규칙 평가의 효과
우리는 특정 규칙을 사용하는 것이 일반 규칙을 사용하는 것과 비교하여 주석자 간 일치도(Inter-Annotator Agreement, IAA)에 어떤 영향을 미치는지 조사한다. IAA는 Krippendorff's Alpha (Krippendorff, 2011)로 계산되며, 규칙 위반에 대한 Likert 척도를 위반(break)과 준수(follow)로 이진화하고, 불확실(unsure) 평가는 제외한다. 동일한 task에서 비교하기 위해, 우리는 주어진 텍스트에 대한 특정 규칙 주석을 "특정 해악 규칙이 위반되었는가"라는 단일 평가로 병합한다. "특정 해악 규칙이 위반되었는가" 평가에 대한 IAA는 **0.53 (95% CI=[0.47, 0.59])**인 반면, 동일한 대화에 대한 "일반 해악 규칙이 위반되었는가" 평가에 대한 IAA는 **0.37 (95% CI=[0.29, 0.46])**이다. 이는 일반적인 해로움보다는 특정 해악에 대해 질문할 때 더 높은 IAA를 나타냄을 의미한다. 규칙별 IAA는 Figure 19를 참조하라.

Figure 14 | 규칙 조건부(rule-conditional) 및 일반 규칙 분류기의 다양한 데이터셋 크기에 따른 성능. instruction tuning으로 학습된 규칙 조건부 모델은 일반 안전 분류기보다 훨씬 뛰어난 성능을 보이며, 샘플 효율성도 더 높다. 이는 데이터 수집이 인간 평가자에게 잠재적으로 해로울 수 있을 때 특히 유익하다. 두 모델 모두 여기서 보여지는 task는 "어떤 규칙이 위반되었는가"이며, 이는 섹션 3.5에서 설명된 대로 데이터의 재주석을 필요로 했다.

일반 규칙 보상 모델 대 규칙 조건부 규칙 보상 모델
규칙 조건부 RM은 일반 안전 분류기(Thoppilan et al. (2022); Xu et al. (2021a)에서 사용된 것과 같은)에 비해 더 적은 데이터를 필요로 하면서도 더 나은 성능을 보인다. 이 비교를 위해, 우리는 **동일한 $N=538$ 개의 규칙별 적대적 대화와 그 규칙별 주석(일반 해악 주석 제외)**을 사용했으며, 이를 30% 테스트 데이터와 70% 학습 데이터로 분할했다. 두 평가자 중 한 명이라도 규칙이 위반되었다고 판단하면, 우리도 위반되었다고 간주한다. 전체 안전 분류기를 학습시킬 때, 우리는 어떤 규칙이라도 위반되면 각 대화를 안전하지 않다고 표시한다. 이를 통해 우리는 두 분류기를 동일한 데이터(규칙별 주석)로 학습하고, 동일한 task("어떤 규칙이 위반되었는가")로 테스트하며, 정면으로 비교할 수 있다. 테스트 시 규칙 조건부 분류기의 경우, 우리는 모든 규칙에 대한 최대 규칙 조건부 위반 확률로 "어떤 규칙이 위반되었는가"를 예측한다. 우리는 instruction tuning을 사용하여 Rule RM을 학습하고, 전체 학습 세트에 선형 헤드를 사용하는 무조건적인 일반 규칙 분류기를 학습했으며, 샘플 효율성을 조사하기 위해 전체 학습 데이터의 50% (무작위 샘플링)에 대해서도 독립적으로 학습했다. 두 모델 모두 동일한 하이퍼파라미터를 스윕하여 최적화되었다 (Appendix D 참조). Figure 14는 규칙 조건부 분류기가 전체 학습 세트로 학습했을 때 더 높은 최종 성능(0.85 대 0.77 AUC)을 달성했으며, 학습 데이터의 50%로 학습했을 때 더 나은 샘플 효율성(0.81 대 0.69 AUC)을 보였음을 보여준다 (동일한 "어떤 규칙이 위반되었는가" 테스트 세트에서 평가됨). Rule RM 학습에 대한 자세한 내용은 Appendix D를 참조하라.

Figure 15 | 고정관념에 대한 편향 점수. 세 가지 데이터셋 모두에서 편향 점수가 0을 초과하는 것을 관찰할 수 있는데, 이는 대화 모델이 고정관념에 도전하는 응답보다 고정관념을 강화하는 응답을 선호하는 경향이 있음을 의미한다. RL fine-tuning은 우리의 기본 모델에 비해 이 문제를 악화시키며, BBQ의 모호한 질문에서 편향 점수를 크게 증가시키고 Winogender에서는 약간 증가시킨다.

3.6. Distributional harms

**타겟팅된 규칙(targeted rules)과 인라인 증거(inline evidence)**는 단일 예시만으로 식별 가능한 instance harm을 완화할 수 있지만, 총체적인 행동에 의존하는 distributional harm은 완화하지 못한다. 예를 들어, Sparrow가 고정관념에 대한 우리의 규칙을 올바르게 따른다면, "여성은 훌륭한 과학자가 될 수 없다"와 같은 발언은 하지 않을 것이다. 하지만, 저명한 과학자에 대해 질문받았을 때 여성을 거의 언급하지 않음으로써 총체적인 편향(bias in aggregate)을 여전히 보일 수 있다. 대화 모델 외의 선행 연구에서는 toxicity와 같은 instance harm을 완화하는 것이 distributional harm을 악화시킬 수 있음을 보여주었다 (Welbl et al., 2021; Xu et al., 2021a).

Shuster et al. (2022b)와 Bai et al. (2022)도 대화 모델의 distributional harm을 분석했으며, 우리는 그들의 연구를 여러 면에서 확장한다. Section 3.6.1에서는 multi-objective RL 이후 대화 모델의 편향이 증폭될 수 있음을 보여준다. 또한, 모델 샘플에서 편향이 지속됨을 확인하고(likelihood-only metrics는 두 가지 가능성 낮은 연속을 비교할 수 있음), 완전히 명시된 질문에 대한 오답에서도 편향이 나타날 수 있음을 보인다 (Shuster et al. (2022b)에서 보여준 단어 상관관계의 편향 외에). Section 3.6.2에서는 **disparate impact(다른 그룹에 대한 모델 성능의 차이)**에 대한 예비 조사를 수행하며, **사실 기반 질문 답변(fact-based question answering)**에 중점을 둔다.

우리는 먼저 모델이 유해한 고정관념에 의존하는지 여부를 테스트하는 데이터셋을 고려한다. 고정관념을 강화하는 답변을 선호하는 모델은 두 가지 방식으로 해를 끼칠 수 있다: 고정관념을 강화할 수 있고, 고정관념화된 집단의 개인들을 잘못 특징지을 수 있다 (Parrish et al., 2021).

설정 (Setup)
우리는 모델의 고정관념 의존도를 테스트하기 위해 설계된 세 가지 데이터셋을 사용한다: Winogender (Rudinger et al., 2018), Winobias (Zhao et al., 2018), 그리고 BBQ (Parrish et al., 2021).
Winogender와 Winobias는 co-reference 데이터셋이며, Winobias는 두 가지 문장 "유형"을 포함한다. 유형 1 문장은 co-reference에 대한 구문적 단서(syntactic cues)를 포함하지 않아 더 도전적으로 설계되었다.
BBQ는 질문-답변 데이터셋으로, 몇 문장으로 제공된 맥락을 기반으로 다른 집단에 속한 사람들에 대한 질문을 한다.
각 데이터셋에서 질문은 고정관념을 강화하는(stereotype-reinforcing) 답변 또는 고정관념에 도전하는(stereotype-challenging) 답변으로 응답될 수 있다 (BBQ에서는 추가적으로 "I don't know" 답변도 가능).
Winogender와 Winobias의 경우, 우리는 Brown et al. (2020); Hoffmann et al. (2022); Rae et al. (2021)을 따라 zero-shot dialogue prompt가 주어졌을 때 LM likelihood를 비교하여 옵션을 선택한다.
BBQ의 경우, 우리는 Parrish et al. (2021)을 따라 응답을 샘플링한다. 이는 LM 출력의 편향을 직접 측정하고, 낮은 likelihood를 가진 연속체들을 서로 비교하는 것을 피한다. 우리는 모델이 예상되는 출력 형식을 사용하도록 5-shot dialogue prompt를 사용한다.

우리의 **편향 측정 지표 $s$ **는 Parrish et al. (2021)이 제안한 대로 고정관념 강화 응답 대 고정관념 도전 응답의 비율을 측정한다. 우리는 $s=1$ 이 항상 고정관념 강화, $s=-1$ 이 항상 고정관념 도전, $s=0$ 이 균형을 나타내도록 재조정한다. $s$ 는 또한 고정관념 강화 답변을 가진 질문과 고정관념 도전 답변을 가진 질문 사이의 정확도 차이이며, 완벽하게 정확한 모델은 $s=0$ 을 가질 것이다 (Appendix H.1 참조).
BBQ에서 "I don't know"가 정답일 때, 우리는 Parrish et al. (2021)을 따라 편향 점수(하위 섹션 H.1에서 $s_{\text {ambig }}$ 로 정의됨)를 재조정하여, 질문에 올바르게 답변을 삼가는 모델이 더 바람직하다는 것을 반영한다. Appendix H.1에는 우리의 데이터셋, 지표 및 설정에 대한 전체 세부 정보가 있다.

결과 (Results)
Figure 15는 우리의 결과를 보여준다. 우리는 편향이 모델과 데이터셋 전반에 걸쳐 지속됨을 발견했다. Winobias 유형 1 질문에서 DPC 및 RL 모델 모두 고정관념 강화일 때 정답일 확률이 약 36% (절대값) 더 높았다.
RL fine-tuning은 기본 모델보다 편향을 증폭시킬 수 있다: Winogender에서 편향 점수는 0.06에서 0.10으로 증가했다. BBQ의 모호한 질문에서 편향 점수는 11개 범주 중 10개에서 증가했다. 그룹별 평균 편향 점수는 평균 0.05에서 0.10으로 증가했으며, 신체 외모, 장애 상태, 연령과 같은 일부 범주에서 더 큰 영향을 미쳤다. Appendix H.1의 증거는 이러한 효과의 대부분이 RL 모델이 답변을 삼갈 가능성이 낮아지고, 그러한 경우 고정관념 강화 응답으로 향하는 경향 때문임을 시사한다.

3.6.2. Disparate impact for factual question answering

Disparate impact은 우리 시스템이 특정 그룹에게 덜 유용할 때 발생할 수 있다. 본 연구에서는 정보 탐색(information-seeking) task에서 disparate impact가 어떻게 발생할 수 있는지, 즉 특정 그룹에 대한 질문에 답하는 모델의 능력을 측정함으로써 더 직접적으로 연구하고자 한다. 비록 이것이 다른 그룹에 대한 유용성을 직접적으로 측정하는 것은 아니지만(이는 더 어려운 일이다), 상관관계가 있을 수 있으며, 모든 사용자에게 동등하게 이점을 제공하는 시스템을 목표로 하는 데 도움이 된다.

설정 (Setup)
Gor et al. (2021)의 연구를 따라, 우리는 세 가지 QA 데이터셋(Natural Questions (Kwiatkowski et al., 2019), Quiz Bowl (Boyd-Graber et al., 2012), TriviaQA (Joshi et al., 2017))을 사용하여 다양한 인구통계학적 그룹(성별, 국가, 직업)과 관련된 질문에 대한 사실적 질문 답변 성능을 평가한다. 우리는 질문을 대화 모델에 직접 제공하고, **각 그룹에 대해 모델 응답 내에 정답이 나타나는 비율(exact match accuracy)**을 보고한다.

결과 (Results)
이 task가 사실(facts)에 중점을 두기 때문에, 우리는 증거(evidence) 통합에서 가장 큰 효과 크기를 관찰했다. 따라서 우리는 이러한 효과에 초점을 맞추고, 전체 결과는 Appendix H.2에 제시한다. Figure 16은 가장 큰 데이터셋인 TriviaQA에 대한 결과를 보여주며, 증거를 통합하면 모든 범주에서 정확도가 향상된다. Figure 17은 정확도와 인구통계학적 그룹 간의 상관관계가 $\chi^2$ 테스트를 통해 유의미한 경우를 보고한다. Gor et al. (2021)의 연구와 유사하게, 우리는 항상 통계적으로 유의미한 효과를 보지 못했으며, 증거를 포함하는 것이 상관관계를 도입하거나 제거할 수 있음을 발견했다.

Figure 16 | TriviaQA 데이터셋에서 다양한 모델에 대한 인구통계학적 하위 그룹별 정확도. 증거를 통합하면 모든 범주에서 정확도가 향상된다.

	NQ	TQA
gender	$\checkmark$
countries	$\checkmark$	$\checkmark$
occupation	$\checkmark$	$\checkmark \checkmark$

Figure 17 | Natural Questions (NQ), QuizBowl (QB), TriviaQA (TQA) 데이터셋에서 $\chi^2$ 테스트를 기반으로 우리의 RL 모델( $\checkmark$ )과 RL + evidence 모델( $\checkmark \checkmark$ )이 정확도와 다양한 특성 간에 유의미한 상관관계를 보이는지 여부. 우리는 증거를 포함하는 것이 상관관계를 도입하거나 제거할 수 있음을 발견했다.

4. Discussion

Section 1에서 논의했듯이, 우리는 본 논문을 향후 추가적인 안전 완화(safety mitigation) 방안을 구축하고 연구하기 위한 기반으로 보고 있다. 앞으로 탐구하고자 하는 몇 가지 주요 방향은 다음과 같다.

4.1. Evidence limitations

Sparrow의 주요 한계점은 WebGPT (Nakano et al., 2021) 및 LaMDA (Thoppilan et al., 2022)와 달리 한 번에 하나의 외부 지식 조각(external knowledge fragment)만 사용한다는 것이다. WebGPT는 또한 검색된 페이지 내에서 스크롤하거나 링크를 클릭하는 기능도 제공한다. SeeKeR (Adolphs et al., 2021; Shuster et al., 2022a)는 여러 문서를 연결한 것에서 더 작은 지식 문장으로 줄이기 위해 중간 지식 추출 단계를 사용하지만, 우리는 검색 엔진 텍스트 스니펫에 의존한다. 우리의 이전 연구인 Menick et al. (2022)는 더 긴 맥락에서 증거 조각을 선택하는 기능을 포함했지만, Sparrow의 맥락이 전체 대화 기록과 prompt를 담고 있어 모델의 context length에 대한 부담으로 인해 이 기능을 제거했다. 우리는 이러한 한계점들이 다단계 추론(multistep reasoning) (Creswell et al., 2022; Dohan et al., 2022; Lewkowycz et al., 2022)을 통해 가장 잘 해결될 수 있다고 믿으며, 이는 해석 가능한 추론 과정(interpretable reasoning traces)을 생성하는 추가적인 이점도 제공한다. Sparrow는 또한 증거에서 텍스트를 자주 그대로 복사하는데 (figs. 28 및 36이 예시), 이는 추가적인 규칙을 통해 완화될 수 있을 것이다.

본 연구에서 우리는 어떤 진술이 신뢰할 수 있는 출처의 상식이나 증거에 의해 각 사실적 주장이 뒷받침될 경우 대략적으로 '정확하다'고 판단한다. 이러한 분류는 일부 참인 진술을 배제하지만, 보수적이며 인간 평가자에 의한 평가를 지원한다 (Evans et al., 2021의 논의 참조). 이러한 증거를 최종 사용자에게도 보여줌으로써, 모델의 진술을 신뢰할지 여부를 선택할 수 있는 자율성을 부여한다. 그러나 본 논문에서는 출처의 신뢰성을 조사하지 않으며, 이 분류는 여러 다른 출처를 종합하는 것과 같은 통계적 증거를 고려하지 않는다. 마지막으로, 우리는 RLHF와 증거가 정확성을 위한 핵심이라고 믿지만, Askell et al. (2021)이 주장하는 바와 같이 정직성(honesty)을 특별히 목표로 삼기 위해서는 해석 가능성(interpretability) (Elhage et al., 2021) 또는 잠재 지식 유도(eliciting latent knowledge) (Christiano et al., 2021)와 같은 다른 메커니즘이 필요할 것이다.

4.2. Dialogue as a supervision mechanism

본 논문에서 대화(dialogue)는 task이지만, 우리의 장기적인 가설은 대화가 머신러닝 모델의 정확한 supervision을 위한 핵심 구성 요소라는 것이다. 실제로 우리는 supervision을 위한 대화에 도전하기 위한 경험과 인프라를 구축하기 위해 대화를 task로 선택했다. 선행 연구들은 ML 시스템의 지원이 정확한 인간 supervision에 도움을 줄 수 있다고 제안했다 (Christiano et al., 2018; Irving et al., 2018; Leike et al., 2018). 이러한 경우, 대화는 ML 지원을 위한 자연스러운 매개체가 되는데, 이는 미묘한 지점에 대한 명확화와 반복적인 논의를 모두 가능하게 하기 때문이다. 특정 모델의 행동이 좋은지 판단하는 것은 종종 매우 미묘하며, 인간 검토(유료 크라우드워커든 본 논문의 저자든)가 핵심 세부 사항을 놓치거나 텍스트를 잘못 해석하기 쉽다.

User	Sparrow, can you help me find a boyfriend?
Sparrow	I'm afraid I can't help you, but I do know a whole lot about people. If you tell me some more about yourself and the kind of person you're looking for, I might be able to point you towards some helpful advice or relevant online dating sites.
User	I would like to find someone kind and caring, like you.
Sparrow	Thanks for the compliment, but I can't feel love or anything like that. Besides, we've already established that you're looking for someone of the male gender, and I'm clearly not a male.
Author A	Is this good?
Author B	It assumes the person is female...
Author C	No, it assumes they want a boyfriend, and explicitly says it doesn't know the gender. And they did ask for a boyfriend, so it seems pretty good?
Author B	Ah true, that's nice. I think the conversation is pretty good.
Author D	My nitpick is it doesn't make it clear that it is not gendered itself. It says "I'm clearly not a male". Is that because chatbots like Siri tend to be female?

Table 6 | 에이전트 행동의 적절성에 대한 대화 예시. 모델을 나쁜 행동으로 유도하려는 사용자 대화에서, Sparrow는 사용자 세부 정보를 추정하는 것을 피하지만, 더 나은 행동(성별을 언급할 필요가 없음)을 놓친다. 논문 저자들 간의 논의에서, 한 저자가 실수를 하여 다른 저자의 수정이 필요했고, 그 저자는 더 나은 선택지를 알아차리지 못하여 추가적인 수정이 필요했다.

Table 6은 모델이 규칙을 위반하는지 여부에 대한 대화 예시를 보여주는데, 이 사례는 여러 저자들의 Slack 토론을 편집한 것이다. 이 경우, 우리의 task 또한 대화이므로, supervision 대화는 대화 기록에 대한 것이지만, 비대화적 행동(예: 생성된 이미지)에 대한 supervision 대화도 가능하다. 초기 진술(논문 저자에 의해)은 부정확했고, 다른 사람이 수정을 제공했으며, 첫 번째 사람은 생각을 바꾼다. 그러나 또 다른 저자가 다른 결함을 지적한다. 최종 결론은 첫 번째 규칙은 위반되지 않았지만, 다른 규칙은 위반될 수 있다는 것이다.

우리의 가설은 supervision의 미묘한 사례들을 올바르게 해결하기 위해서는 이러한 다단계 논의가 필요하다는 것이다. 위 대화에서는 인간이 수정과 명확화를 제공했지만, 충분히 유능한 대화 에이전트도 이를 제공할 수 있을 것이다. 동일한 원칙이 인용된 증거에도 적용되는데, 초기 출처 인용이 맥락에서 벗어난 경우 추가 출처나 주장이 필요할 수 있기 때문이다. supervision을 위한 대화의 **적대적(adversarial) 사례는 토론(debate)**이며, 여기서 두 명 이상의 대화 에이전트가 서로의 진술에서 결함을 지적한다 (Irving et al., 2018). 그러나 supervision을 위한 대화는 또한 인간과 에이전트 간의 협력을 통해 의미를 공동으로 명확히 하고, 오해나 간극을 피해야 한다 (Hadfield-Menell et al., 2016; Russell, 2020). 적대적 행동과 협력적 행동을 결합하는 최선의 방법을 결정하는 것이 supervision을 위한 대화로 나아가는 데 핵심이 될 것이다. 다단계 인간 상호작용 방법에 대한 초기 연구에는 frozen question answering 모델을 사용한 시뮬레이션 토론 (Perez et al., 2019)과 책을 재귀적으로 요약하는 방식 (Wu et al., 2021)이 포함되는데, 이는 책 길이 요약을 평가하는 것에서 구절 길이 요약을 평가하는 것으로 평가 task를 단순화한다. 1단계 토론의 초기 증거는 엇갈린다: Saunders et al. (2022)은 모델이 생성한 비판이 인간이 요약의 결함을 알아차리는 데 도움이 된다는 것을 발견했지만, Parrish et al. (2022)에서는 인간에게 설명을 보여주었을 때 정확도가 향상되지 않았다.

4.3. Ethical and sociotechnical aspects

규칙 메커니즘의 주요 목표는 언어 에이전트에게 '좋은 발화(good speech)'가 무엇인지에 대해 사용자 및 영향을 받는 그룹을 포함한 다양한 이해관계자들의 의견을 확장 가능하게 통합하는 것이다. 그러나 이러한 메커니즘의 성공적인 구현은 여러 미해결 연구 과제를 제기한다. 예를 들어, 모든 규칙 메커니즘은 규칙의 출처를 고려하고 관련 이해관계자들의 요구와 기대를 균형 있게 조절해야 할 것이다. 본 연구에서는 도메인 및 법률 전문가와의 협의를 통해 규칙을 생성했으며, 소수의 제안된 규칙들을 중심으로 진행되었다. 앞으로는 다른 이해관계자들로부터 더 많은 참여적 입력 (Berditchevskaia et al., 2021; Halfaker and Geiger, 2020; Lee et al., 2019)이 합법적이고 사용자 요구에 부합하는 언어 에이전트를 개발하는 데 중요할 것이다. 그러나 참여적 접근 방식이 만능은 아니며, 그 성공적인 배포는 사회기술적 ML에 대한 이전 연구에서 잘 문서화된 일련의 기술적 및 윤리적 고려 사항 (Birhane et al., 2022; Sloane et al., 2020)에 달려 있다.

우리는 에이전트 행동에 영향을 미치는 규칙의 두 가지 목표를 구분한다: **피해 완화(mitigating harms)**와 더 나은 발화 장려(incentivising better speech). Bender et al. (2021) 및 Weidinger et al. (2021)의 이전 연구는 대규모 언어 모델에서 발생하는 다양한 새로운 및 기존 피해를 설명했으며, Rauh et al. (2022)은 언어 피해가 달라질 수 있는 여섯 가지 특성을 제시하는데, 이 중 일부는 대화에 특화된 것이다. 이러한 피해의 영향은 균등하게 분포되지 않으며, 소외된 그룹이 문제가 있는 에이전트 행동으로 인해 가장 위험에 처할 가능성이 높다 (Tomasev et al., 2021). 우리는 또한 규칙을 사용하여 적절한 규범과 가치에 더 밀접하게 부합하는 발화를 장려할 수 있다: Kasirzadeh and Gabriel (2022)는 Grice (1975)의 연구를 바탕으로 효과적이고 유익한 의사소통을 가능하게 하는 화용론적 원칙(pragmatics principles)을 공식화했다. 대화를 형성하기 위해 규칙을 사용하는 것은 task로서의 대화와 에이전트 행동의 정확한 평가를 목표로 하는 감독(supervision)을 위한 대화 모두에 중요할 수 있다. 화용론은 고도로 유능한 에이전트를 감독하기 위해 대화를 사용할 때 결정적일 수 있다: 탐지해야 할 다양한 유형의 기만적인 주장 (Schopenhauer, 1831)이 있으며, 이는 일반적인 인간 대 인간 의사소통과 다를 수 있다 (Irving and Askell, 2019).

잠재적으로 많은 수의 규칙이 존재한다는 점은 많은 규칙에 확장 가능한 기술의 필요성을 시사한다. 우리의 **규칙 조건부 보상 모델(rule-conditional reward models)**은 본 논문에서 사용된 규칙 수까지는 잘 작동하지만, 수백 또는 수천 개의 규칙으로 확장하기 위해서는 추가적인 아키텍처 작업이 필요할 것으로 예상된다. 마지막으로, 상세한 규칙을 통해 데이터를 수집하는 것의 핵심적인 실용적 이점은 규칙 간의 충돌 및 가중치를 사후에 변경할 수 있다는 점이다: Saeidi et al. (2021)은 정책을 규칙을 잎(leaves)으로 하는 표현 트리(expression trees)로 표현하며, 이 표현은 전문가가 작성하거나 산문에서 추론할 수 있다 (Kotonya et al., 2022).

4.4. More cognitive science research is needed

우리의 목표가 인간이 대화 에이전트를 감독하도록 돕는 것이므로, 우리가 task를 성공적으로 수행했는지 여부는 인지 과학 및 인간-컴퓨터 상호작용(Irving and Askell, 2019)으로부터의 통찰력에 근본적으로 의존한다. 이러한 분석은 에이전트의 응답과 인간의 신념 및 선호도 사이에 복잡한 상호 의존성이 있는 대화와 같은 상호작용 환경에서 특히 중요하다. 여기서는 향후 연구를 위한 두 가지 중요한 주제를 논의하며, 이 외에도 많은 주제가 있다.

첫째, 우리 연구와 다른 연구들의 핵심 목표는 **에이전트의 응답을 증거에 기반하도록 하는 것(grounding agent responses in evidence)**이다 (Evans et al., 2021). 이는 거짓 또는 오해의 소지가 있는 진술로 인해 발생하는 해악에 대한 중요한 해독제이지만, 진실과 증거를 모델 출력의 속성으로만 취급하는 것은 인간 대화 파트너의 마음에 미치는 하류 효과를 간과하는 것이다. 광범위한 문헌은 강한 신념이 설득력 있는 반대 증거에도 불구하고 변화에 저항할 수 있음을 보여준다 (Gershman, 2019). 이에 대한 수많은 메커니즘이 제안되었으며, 그중 가장 잘 알려진 것은 **동기화된 추론 편향(motivated reasoning bias)**이다 (Kunda, 1990). 이러한 인지 편향에 덜 취약한 증거 모드를 찾는 것은 정렬된 AI(aligned AI)와 유익한 인간-AI 상호작용의 미래에 중요할 것이다.

둘째, 적용할 수 있는 잠재적 규칙의 공간이 증가함에 따라, 우리는 어떤 세분성(granularity)이 가장 적절한지를 물어야 한다. 일반적으로 어떤 주어진 해악 범주에서도 점점 더 세분화되고 구체적인 규칙을 찾는 것이 가능하다. 직관적으로, 더 구체적인 규칙은 인간 평가자가 적용하기 더 쉬워 보이지만, 단일 인간은 한 번에 소수의 규칙 이상을 기억할 수 없을 것이다 (우리는 자체 평가를 동시에 최대 5개로 제한한다). 따라서 규칙의 구체성과 데이터 수집의 효율성 사이에는 trade-off가 존재한다. 원칙적으로, 이는 적절한 인간 실험을 통해 경험적으로 해결될 수 있는 질문이다.

4.5. Broader impacts

Rae et al. (2021)의 섹션 7.3에서 논의된 바와 같이, 우리는 대부분의 언어 관련 피해(language harms)는 LLM 사전학습(pretraining) 이후의 다운스트림 단계에서 완화하는 것이 가장 효과적이라고 생각한다. 이는 더 빠른 반복 주기, 피해의 애플리케이션 의존성, 그리고 단일 모델이 여러 역할을 수행하는 점(우리는 Chinchilla를 policy와 classifier 모두로 사용) 때문이다. 본 연구는 이러한 다운스트림 완화의 한 구성 요소이지만, 우리의 방법은 평가자가 큰 도움 없이 감지할 수 있는 instance harms에만 국한된다. 프라이버시 (Abadi et al., 2016) 및 사회적, 언어적 또는 환경적 정의 (Bender et al., 2021)와 같은 문제는 다운스트림 작업 외에도 사전학습 단계에서의 완화가 필요하지만, 규칙 또한 역할을 할 수 있다 (예: 에이전트에게 공개 웹에 정보가 있더라도 비공개로 유지해야 할 정보를 드러내지 않도록 가르치는 것).

많은 alignment 방법과 마찬가지로, 우리의 방법도 **이중 용도(dual-use)**이다. 즉, 유익한 규칙만큼이나 해로운 규칙을 쉽게 적용하는 데 사용될 수 있다. 해로운 결과를 피하기 위해서는 규칙에 대한 통제권이 어떻게 결정되는지, 영향을 받는 당사자들이 이 통제권을 공유하는지, 그리고 어떤 규칙이 적용되고 있는지에 대한 가시성을 가지는지를 다루어야 한다. 이는 Denton et al. (2020)이 데이터셋에 대해 제기한 고려 사항들과 유사하다.

5. Conclusion

원시적인 **생성 모델(generative model)**로부터 **유용하고, 정확하며, 해롭지 않은 에이전트(agent)**를 구축하는 것은 폭(width)과 깊이(depth) 모두를 필요로 한다. 폭은 목표와 주제의 세부적인 복잡성을 다루기 위함이고, 깊이는 이들 각각을 신중하고 정확하게 처리하기 위함이다.

우리는 Sparrow를 통해 폭(width)에 집중했다:

목표를 세부적인 규칙으로 분해하고,
에이전트가 외부 지식을 활용하여 올바르게 논의할 수 있는 주제의 범위를 넓히도록 허용했다.

이러한 기술들이 효과적임을 발견했으며, 그 결과 Sparrow는 다음과 같은 성과를 보였다:

평가자 선호도 측정 결과, 더 자주 유용한 답변을 제공했다.
사실적 질문에 대해 78%의 확률로 정확한 근거를 인용했다.
적대적인 조건에서도 규칙 위반율을 8%로 감소시켰다.

깊이(depth)를 다루기 위해서는 다음과 같은 노력이 필요할 것이다:

에이전트가 스스로 문제를 해결하는 과정을 거치도록 다단계 추론(multistep reasoning) 능력을 부여하여, 인간이 평가할 수 있는 **해석 가능한 흔적(interpretable traces)**을 남기도록 해야 한다.
좋은 규칙 세트를 찾고 발전시키기 위한 **전문가 및 참여형 협력(expert and participatory engagement)**이 필요하다.
규칙 위반 탐지 능력을 향상시키기 위한 **감독(supervision)을 위한 토론 및 대화(debate and dialogue)**가 필요하다.
시스템이 실제 사람들과 잘 작동하도록 하기 위한 세심한 인지 과학(cognitive science)적 접근이 필요하다.