LLM을 활용한 대화형 개인정보 처리방침 평가 도구, PRISMe
웹사이트의 개인정보 처리방침은 복잡하고 길어서 사용자가 이해하기 어렵습니다. 이 문제를 해결하기 위해, 본 논문에서는 Large Language Model (LLM)을 기반으로 한 브라우저 확장 프로그램 PRISMe를 개발하고, 22명의 사용자를 대상으로 질적 연구를 수행했습니다. PRISMe는 대시보드와 LLM 채팅 기능을 통해 사용자가 웹서핑 중에도 개인정보 처리방침의 핵심 내용을 쉽게 파악하도록 돕습니다. 연구 결과, 이 도구는 사용자의 개인정보 보호 인식을 높이고 이해도를 향상시키는 데 효과적이었으나, 도구에 대한 신뢰를 구축하는 데에는 몇 가지 과제가 있음을 발견했습니다. 논문 제목: "You don't need a university degree to comprehend data protection this way": LLM-Powered Interactive Privacy Policy Assessment
Freiberger, Vincent, Arthur Fleig, and Erik Buchmann. "" You don't need a university degree to comprehend data protection this way": LLM-Powered Interactive Privacy Policy Assessment." Proceedings of the Extended Abstracts of the CHI Conference on Human Factors in Computing Systems. 2025.
"You don't need a university degree to comprehend data protection this way": LLM-Powered Interactive Privacy Policy Assessment
Abstract
온라인 개인 정보 보호를 위해서는 사용자가 웹사이트 개인 정보 처리 방침을 이해하고 활용해야 하지만, 많은 방침들이 읽기 어렵고 지루하다. 본 연구는 Large Language Model (LLM) 기반의 개인 정보 처리 방침 평가에 대한 최초의 정성적 사용자 연구를 제시한다. 이를 위해 우리는 LLM 기반의 개인 정보 처리 방침 평가 브라우저 확장 프로그램을 구축하고 평가했다. 이 도구는 사용자가 웹 서핑 중 길고 복잡한 개인 정보 처리 방침의 핵심을 이해하도록 돕는다. 이 도구는 대시보드와 LLM 챗 기능을 통합한다.
우리의 정성적 사용자 연구(N=22)에서는 도구가 제공하는 정보의 유용성, 이해도, 그리고 개인 정보 인식에 미치는 영향을 평가했다. 이해하기 쉬운 빠른 개요와 심층적인 논의를 위한 챗 기능은 개인 정보 인식을 향상시켰지만, 사용자들은 도구에 대한 신뢰 구축에 어려움이 있다고 언급했다. 이러한 통찰을 바탕으로, 우리는 미래의 개인 정보 처리 방침 분석 도구를 위한 중요한 설계 시사점을 도출한다.
1 Introduction
기업, 온라인 서비스, 스마트 기기 등과의 거의 모든 상호작용은 개인 데이터의 흔적을 남긴다. 기업들은 AI 및 ML 기반의 초개인화(hyper-personalization) 기술을 실시간 데이터 소스와 함께 활용하여 [24] 사용자 프로필을 생성하고 마이크로 타겟팅(micro-targeting)을 가능하게 한다 [7]. 이는 자동화된 영향력 행사 [5], 조작 [31], 잠재적인 보안 침해와 같은 막대한 프라이버시 위험을 초래한다. 기업들이 사용자 개인 데이터 획득 및 분석에 투자하는 동안, 사용자들은 종종 관련된 프라이버시 위험에 대한 인식이 부족하거나 [15] 왜곡된 인식을 가지고 있다 [16].
GDPR [13]과 같은 프라이버시 규제는 기업들에게 데이터 관리 관행과 사용자 권리를 프라이버시 정책에 명시하도록 강제하여, 사용자들이 개인 정보에 대해 정보에 기반한 결정을 내릴 수 있도록 한다. 그러나 증거에 따르면 기업들은 사용자보다는 변호사를 대상으로 규제 준수에만 초점을 맞추고 있으며 [45], 이로 인해 사용자들은 프라이버시 정책을 거의 읽지 않는다 [35]. LLM을 사용하여 프라이버시 정책을 자동으로 평가하는 것은 이 문제를 해결하기 위한 유망한 접근 방식이다 [20, 43, 53]. 하지만, 이러한 방식이 사용자의 이해도와 위험 인식에 미치는 영향을 평가한 선행 연구는 없다.
따라서 우리는 시나리오 기반의 정성적 사용자 연구를 수행했다. 이 연구에는 다양한 배경을 가진 22명의 참가자가 여러 채널을 통해 모집되었다. 이 연구를 수행하기 위해 우리는 **Chrome 확장 프로그램인 PRISMe (Privacy Risk Information Scanner for Me)**를 개발했다. PRISMe는 LLM 기반의 자동 프라이버시 정책 평가와 다음 요소들을 결합한다: (i) 대화형 대시보드(interactive dashboard); (ii) LLM과의 개방형 대화를 위한 채팅 기능; (iii) 사용자의 세부 정보 및 복잡성 선호도에 맞춰 조정되는 맞춤형 설명 및 응답.
우리는 세 가지 연구 질문에 초점을 맞춘다:
RQ. 1 다양한 프라이버시 지식을 가진 사용자들은 PRISMe의 프라이버시 정책 설명을 어떻게 해석하는가? RQ. 2 PRISMe를 사용하는 것이 사용자의 프라이버시 위험 인식에 어떤 영향을 미치는가? RQ. 3 PRISMe는 다양한 사용자 맥락과 task에서 일상적인 사용에 얼마나 적합하고 유용한가?
우리의 연구 결과는 PRISMe와 같은 도구가 관련 프라이버시 보호 정보를 전달함으로써 온라인 프라이버시 위험에 대한 인식과 이해가 부족한 사용자들에게 [16] 엄청난 도움을 줄 수 있음을 시사한다. 또한, 사용자들은 제공된 정보에 대한 증거를 요청하는 경향이 있었다 (PRISMe는 이를 제공할 수 있다).
우리의 주요 기여는 LLM 기반 프라이버시 정책 분석을 평가하는 정성적 사용자 연구이다. 우리의 연구 결과는 프라이버시 인식과 정보 주권을 향상시키는 대화형 도구를 개발하는 데 중요한 단계를 제시한다.
2 Related Work
2.1 Challenges with Privacy Policies
개인정보 처리방침은 서비스 제공자와 사용자 간의 정보 비대칭성을 완화하는 것을 목표로 한다 [30, 55]. 그러나 개인정보 처리방침은 종종 법적 준수를 위해 밀도 높고 변호사 중심적인 언어로 작성된다 [45]. 이로 인해 사용자들은 자신의 선호도와 처리방침 내용을 일치시키기 어렵다 [32, 52]. GDPR [13] 또는 [6]과 같은 법적 규제는 설득적인 언어 사용을 막지 못하며, 이는 비윤리적인 관행을 모호하게 만들고 잘못된 신뢰감을 형성할 수 있다 [4, 39]. 따라서 사용자들이 개인정보 처리방침을 읽고 이해하는 경우는 드물며 [41, 47], 이는 **정보 불공정성(informational unfairness)**으로 이어진다 [14]. Generative AI [29]와 Augmented Reality는 데이터 관리 관행을 더욱 복잡하게 만들고 투명성 문제를 악화시킨다 [2-4].
2.2 The Landscape of Transparency-Enhancing Technologies
초기 접근 방식 중 Privacy Bird [12]와 같이 **개인정보 언어 표현(privacy language representation)**에 의존하는 도구들은 P3P privacy language [11]를 활용하여 개인정보 민감도 수준을 사전 구성하고, 정적이고 규칙 기반의 위험 평가를 통해 신호등 시스템으로 경고를 표시했다. 현재의 privacy nutrition labels [25]도 유사한 시각화를 제공한다. 그러나 고정된 기준은 적응성을 제한하고, 사용자 질의 메커니즘의 부재는 상호작용성과 교육 효과를 저해한다. 이러한 점에 영감을 받아, PRISMe는 백그라운드에서 정책을 평가하고 결과를 간결하게 제시한다. Grünewald et al. [18]은 이후 챗봇 상호작용을 포함한 계층형 대시보드를 도입했지만, 대화 유연성이 제한적이었다. 우리 또한 초기에는 최소한의 정보만을 제공하며, 사용자가 채팅 상호작용을 통해 추가 세부 정보를 탐색할 수 있도록 한다.
Poli-see [19] 및 ToS;DR [44]과 같은 도구들은 크라우드소싱된 주석(crowd-sourced annotations)과 같은 처리된 데이터에 의존한다. Poli-see는 대시보드에 아이콘을 통해 데이터 흐름을 시각화하고, ToS;DR은 색상 코딩된 요약을 사용하여 빠른 평가를 제공한다. 복잡성을 단순화하는 데 효과적이지만, 정적 데이터에 의존하는 방식은 확장성과 적응성을 제한한다.
자연어 처리(NLP)를 통한 자동 평가의 발전은 초점을 일반 텍스트 개인정보 처리방침으로 옮겼다. Polisis [21]와 PriBot [22]은 개인정보 관련 임베딩(privacy-specific embeddings)과 ML 분류기를 활용하여 정책 요소를 식별하고, 사용자가 내용을 질의할 수 있도록 했다. 그러나 반환되는 세그먼트가 정책의 직접적인 인용문이기 때문에, 사용자는 여전히 이해에 어려움을 겪을 수 있다. 이와 대조적으로, 우리의 LLM 기반 챗봇은 더 명확한 설명을 제공하고, 요청 시 정책 증거를 인용하며, 정책 텍스트를 넘어선 더 광범위한 질문을 처리할 수 있다. PrivacyInjector [52]는 맥락 인지 시각화(context-aware visualizations) 및 설명을 통해 의사 결정을 향상시켰다. 개인정보 인식을 개선할 가능성이 있었지만, 사용자들은 텍스트 길이 단축과 개인정보 위협의 심각성 해석을 제안했으며, PRISMe는 이를 가능하게 한다. PrivacyCheck [34]는 **사용자 제어 및 GDPR에 대한 20개의 정적 질문(그 중 17개는 예/아니오 질문)**을 사용하여 개인정보 처리방침을 평가하고, ML 모델로 점수를 매긴다. 이 도구는 웹사이트의 시장 부문을 식별하고 세 경쟁사와 점수를 비교한다. 그러나 고정된 질문과 이진 응답은 사용자 상호작용을 제한하고, 설명을 질의하거나 단순화하는 능력을 저해한다.
Claudette [8], PrivacyGuide [50], GDPR-completeness classifiers [1, 51, 54]와 같은 ML 분류기 기반 도구들은 GDPR 준수 여부에 대한 이진 또는 체크리스트 기반 점수를 평가한다. 그러나 이들은 비법률 전문가에게 그 의미를 효과적으로 전달하지 못하는 경우가 많으며, 개인의 개인정보 선호도를 고려하지 않는다.
LLM 기반 개인정보 처리방침 평가는 연락처 정보 및 제3자와 같은 개인정보 처리방침의 핵심 측면을 추출하는 데 NLP 방법만큼 효과적임이 입증되었다 [43]. ChatGPT-4는 개인정보 관련 질문에 답변하는 데 있어 성능과 적응성을 제공하며 [20], 이는 우리가 GPT-4o [36]를 사용하게 된 동기가 되었다. Privacify [53]는 정책 청크를 요약하여 준수 분석 및 데이터 수집 통찰력을 제공하는 브라우저 확장 프로그램이다. 그러나 맞춤 설정, 대화형 기능, 그리고 가장 중요하게는 포괄적인 평가 기능이 부족하다.
2.3 Identified gaps for AI tools assessing privacy policies
기계가 읽을 수 있는 개인정보 처리방침 표현은 드물기 때문에, Privacy Bird와 같은 도구들은 영감을 주지만 실제 적용 가능성이 부족하다. 크라우드소싱된 데이터를 처리하는 도구들은 확장성 및 적응성 문제에 직면한다. 규정 준수 중심의 접근 방식은 법률 전문가에게는 유용하지만, 일반 사용자의 요구를 충족시키는 데 어려움이 있다. 정적인 기준은 사용자의 요구와 변화하는 관행에 대한 적응성을 제한하며, 많은 도구에서 상호작용이 부족하여 사용자 참여, 인식 및 이해를 저해한다. LLM 기반 도구는 아직 초기 단계이며, 질적인 사용자 연구는 수행되지 않았다.
3 Study Methodology
우리는 PRISMe의 연구 프로토타입을 사용하여 세 가지 시나리오에서 **탐색적인 실험실 기반 정성적 사용자 연구(N=22)**를 수행했다. 먼저 시나리오를 설명하고(전체 사용자 지침은 Appendix A.2 참조), Section 4에서 PRISMe에 대해 설명한다. 참가자들은 각 시나리오에서 원하는 만큼 시간을 보낼 수 있었다.
**시나리오 1 "뉴스 미디어 플랫폼(focus.de) 및 결제 제공업체(PayPal)에서의 개인정보 탐색"**은 PRISMe를 사용하여 사용자들이 개인정보 처리방침에 어떻게 참여하는지 평가하여 RQ. 1 (이해) 및 **RQ. 2 (인식)**를 목표로 한다. 이 시나리오는 참가자들을 일반적이지만 복잡하고 상당한 데이터 수집이 이루어지는 서비스에 노출시킨다.
**시나리오 2 "개인정보 보호 관행 비교"**는 **RQ. 3 (유용성)**을 다룬다. 가상의 구매 전에 네 개의 독일 온라인 서점(동일한 가격, 다른 수준의 데이터 보호)을 설정하여, 사용자들은 개인정보 처리방침을 비교하고 결정하도록 지시받는다. 이 시나리오는 사용자들을 서비스 간에 선택하는 현실적이고 비교적인 환경에 노출시킨다. 시나리오 설명에서 서점의 제시 순서는 참가자마다 변경되었다.
**시나리오 3 "웹사이트 자유 탐색"**은 PRISMe가 개인화된 맥락에서 사용자의 개인정보 보호 우려를 어떻게 지원하는지 조사한다. 참가자들은 자신이 선택한 웹사이트를 자유롭게 탐색하며, 도구의 실제 참여 잠재력에 대한 통찰력을 제공하고 **RQ. 1 (이해), RQ. 2 (인식), RQ. 3 (유용성)**에 기여한다.
3.1 Experimental Design and Procedure
동의서에 서명한 후, 참가자들은 인구 통계, 개인 정보 보호 태도 및 브라우징 습관에 대한 설문지를 작성했다. 다음으로, 진행자는 PRISMe의 기능을 시연하고 설명했다. 그 후, 참가자들은 PRISMe에 익숙해질 때까지 제안된 웹사이트 또는 스스로 선택한 웹사이트를 사용하여 도구를 독립적으로 탐색했으며, 필요한 경우 안내를 받을 수 있었다. 그런 다음 평균 29.8분이 소요된 세 가지 시나리오를 완료했다. 진행자는 참가자들이 질문하고 의견을 제시하도록 격려했으며, 이는 문서화되었다. 시나리오를 완료한 후, 참가자들은 SUS 설문지와 우리가 직접 만든 질문들(Figure A.6 참조)을 작성했다. 연구는 평균 17.6분 동안 진행된 반구조화된 인터뷰(인터뷰 가이드는 Appendix A.3 참조)로 마무리되었다. 인터뷰는 Myers [33]에 따라 준비되고 수행되었다. 우리는 faster-whisper (large-v3) [38, 48]를 사용하여 인터뷰를 전사(transcribe)했으며, 정확성과 일관성을 위해 전사본을 수동으로 확인했다. grounded theory [9, 10]에 기반한 open coding 접근 방식을 사용하여, 우리는 Taguette [42]의 도움을 받아 시나리오 동안 참가자들이 제시한 전사본과 의견을 분석했다. 코딩은 두 명의 연구자가 독립적으로 수행했다. 초기
Figure 1: 사용자가 웹사이트를 방문하면, 우리의 프로토타입은 백그라운드에서 개인 정보 보호 정책을 평가하고 색상 스크롤바와 진입점 스마일리 아이콘(상단 중앙)을 통해 개인 정보 보호 경고를 표시한다. 스마일리를 클릭하면 주요 개인 정보 보호 문제를 요약한 Overview Panel(왼쪽)이 열리며, Dynamic Dashboard 및 채팅 인터페이스로 이동할 수 있다. 대시보드(하단 중앙)는 자세한 정책 평가 기준을 제공하며, 사용자는 해당 "More" 버튼을 클릭하여 이에 대해 채팅(오른쪽)할 수 있다.
코딩 후, 두 저자는 서로의 코드를 검토했으며, 이후 대면 토론을 통해 명확화(23개 코드) 및 불일치(15개 코드)를 해결하여 3개의 코드를 완전히 삭제하거나 8개의 코드를 더 높은 추상화 수준으로 통합했다. 또한 약간 다르게 명명된 코드들도 해결했다. 그 결과, 61개의 코드(896개의 코딩된 구절)로 구성된 집계되고 정제된 세트가 만들어졌다. 모든 코드를 기반으로, 두 저자는 코드가 속하는 포괄적인 주제를 식별하고 그에 따라 그룹화한 후, 또 다른 토론을 통해 결과를 집계하여 6개의 주제를 도출했다(각 저자가 처음에는 5개를 식별한 후).
3.2 Participants
독일의 두 도시(라이프치히와 켐니츠)에서 우리는 메일링 리스트, 온라인 게시판, AI 관련 공개 행사, 성인 교육 센터 및 편의 샘플링을 통해 22명의 참가자(남성 14명, 여성 8명; 연령 범위: 18-64세)를 모집했다. 참가자들은 IT(3명), 산업 생산(3명), 화학(2명), 법률(1명) 분야의 연구원, 대학생(4명) 또는 IT(3명), 교육(2명), 부동산(1명), 엔터테인먼트(1명), 공예(1명), 의료(1명) 분야의 전문가들이었다. 참가자들의 데이터 보호 전문 지식은 초보자부터 전문가(데이터 보호 책임자 포함)까지 다양했다. 모든 참가자들은 개인정보처리방침을 거의 읽지 않거나 전혀 읽지 않았다. 참가자들에게는 15유로 상당의 상품권이 지급되었다. 연구는 1시간으로 예정되었지만, 참가자들은 자유롭게 다른 웹사이트를 탐색할 수 있었다. 우리는 60분에서 90분까지의 측정 시간을 기록했다.
4 Our PRISMe Prototype
본 연구의 실용적인 부분으로, 우리는 Chrome 브라우저 확장 프로그램인 PRISMe를 구현했다 (Figure 1 참조). Section 2에서 드러난 개인 정보 관련 결정에 대한 일반적인 무력감, 낮은 참여도, 그리고 부드러운 브라우징 경험에 대한 선호는 LLM 기반 개인 정보 보호 정책 평가 도구를 위한 네 가지 설계 고려 사항으로 이어졌다:
- DC. 1 커뮤니케이션은 광범위한 사용자를 위해 명확하고, 적응 가능하며, 이해하기 쉬워야 한다.
- DC. 2 도구는 브라우징 경험을 너무 방해하지 않아야 하며, 즉각적인 피드백을 제공해야 한다.
- DC. 3 개인 정보 보호 정책을 이해하는 데 탐색적이고, 이상적으로는 쉽고 매력적인 측면이 있어야 한다.
- DC. 4 도구는 다양한 개인 정보 요구 사항과 다양한 유형의 웹사이트에 적응해야 한다.
프로토타입 구현 후, 우리는 연구 그룹 내에서 이를 테스트하고 반복적인 피드백 주기를 통해 개선했다. 그 후, 본 연구와는 다른 남성 4명, 여성 2명의 참가자를 대상으로 파일럿 스터디를 진행했다. 그들의 피드백을 바탕으로, 우리는 LLM 평가 및 사용자 입력을 캐싱하여 성능을 향상시켰고, 정책 스크래핑을 개선했다. 또한 프론트엔드 인터페이스 요소를 재배치하고, 웹사이트 정책의 일반 텍스트 표시 기능을 추가했다. 우리는 또한 정책 평가에 대한 개별적인 선호도를 처음부터 고려했으며, 음성-텍스트 입력 방식을 추가했다.
Figure 1은 본 연구에서 사용된 PRISMe 프로토타입을 보여준다. 사용자가 탭을 전환하거나 새로운 웹사이트를 방문하면, PRISMe는 개인 정보 보호 정책을 가져와 분석하고, 색상으로 구분된 스크롤바와 스마일리 아이콘으로 우려 사항을 강조 표시한다 (Figure 1 상단 중앙). LLM (OpenAI의 GPT-4o [36])은 Appendix A.1에 제공된 시스템 prompt를 사용하여 5점 Likert 척도로 기준을 동적으로 선택하고 평가한다.
스마일리 아이콘 (녹색, 노란색, 빨간색)은 정책의 전반적인 등급을 요약한다. 스마일리를 클릭하면 Overview Panel이 열리며 (Figure 1 왼쪽), 주요 문제점 (3점 미만)을 요약하고 더 깊은 탐색을 위한 대시보드 및 채팅 인터페이스로 연결된다. Dashboard Panel (Figure 1 하단 중앙)은 각 기준에 대한 상세 점수를 스마일리 아이콘으로 표시한다. 또한 대시보드 아래에 점수에 대한 설명을 제공한다. 사용자는 Criteria Chat (Figure 1 오른쪽)을 통해 기준을 탐색하거나, General Chat (다른 시스템 prompt 사용)을 통해 더 광범위한 질문을 할 수 있다. 두 채팅 모두 Ravichander et al. [40]에서 영감을 받아 **동적으로 생성된 질문 제안 (GPT4o-mini [37] 사용)**을 제공하며, 타이핑 또는 음성 입력을 허용한다. 톱니바퀴 아이콘을 통해 접근할 수 있는 Settings에서는 사용자가 채팅 응답 길이와 정책 평가 (짧게, 중간, 길게) 및 복잡도 (초급, 기본, 전문가)를 자신의 선호도와 기술 전문 지식에 맞춰 사용자 정의할 수 있다.
5 Results
5.1 Interview & Comments Data
우리는 6가지 주제 영역에서 61개의 고유한 코드를 식별했으며, 이를 아래에 요약한다 (전체 코드북은 Appendix A.5 참조).
주제 1: 사용자 태도, 동기 및 행동 (RQ.2, RQ.3)
참여자들은 종종 무관심(P1, P6, P8), 불안감(P4, P14) 또는 개인 정보 보호 위험에 대한 오해(예: 시크릿 모드가 추적을 방지한다고 믿음) (P5, P9)를 보였고, 웹사이트의 데이터 보호 관행에 대한 불신(P1, P2, P8, P9, P11, P12)을 표명했다.
그러나 PRISMe는 감정적인 반응, 호기심을 불러일으키고 개인 정보 보호 인식을 높였다. 예를 들어, P1은 "저런 슬픈 얼굴은 나에게 감정적으로 영향을 미친다"고 말하며 데이터 보호의 중요성에 대해 "이전에는 개인 정보 처리 방침을 보는 것이 내 삶에서 중요하지 않았지만, [...] 이제는 더 인식을 높여야 할 것 같다"고 언급했다. 참여자들은 더 탐색하려는 동기를 보였고, P15는 "흥미로워서 항상 더 시도하고 싶었다"고 말했다. 참여자들은 PRISMe를 일상생활에서 사용하고 싶어 했다: "사용할 수 있다면 바로 설치할 것 같다" (P21), "이것이 표준 관행이 된다면 큰 발전이 될 것 같다" (P20).
참여자들은 습관 변화의 어려움(P1, P4, P5, P6, P10, P18)을 인지하고 개인 정보 보호와 관련 없는 요소들을 (더) 중요하게 여겼지만(P3, P8, P11, P12, P14, P16, P20, P22), 데이터 보호 교육(P18), 웹사이트 관행 개선(P20), 문서화(P20), 비즈니스 파트너 평가(P6, P22)와 같은 전문적인 응용 분야를 강조했다.
주제 2: 정보 품질 및 명확성 (RQ.1, RQ.3)
참여자들은 PRISMe가 복잡한 개인 정보 처리 방침 언어를 단순화하여 "번역가" 역할(P20)을 함으로써 데이터 보호를 접근 가능하게 만들었다고 칭찬했다. P19는 "이런 방식으로는 데이터 보호를 이해하기 위해 대학 학위가 필요하지 않다"고 언급했다. 일부 참여자들은 평가 방식의 투명성 부족(P1, P10, P12, P17, P18, P22)을 지적하고 특정 평가의 근거에 대해 혼란스러워했지만, "왜 이런 낮은 등급이 주어졌는지, 또는 시스템이 왜 이런 결론에 도달했는지 정말 이해할 수 없었다" (P14)고 말했음에도 불구하고, 모두 단순화된 언어가 이해도를 크게 향상시켰다는 데 동의했다. 두 명을 제외한 모든 참여자들은 개인 정보 처리 방침에 대한 빠르고 명확한 개요를 강조하며, 최소한의 노력으로 필수 정보에 접근할 수 있게 해준다고 언급했다.
도구의 세부 정보 수준에 대한 피드백은 엇갈렸다. 일부 참여자들은 전반적인 등급과 경고 간의 불일치(P8, P11, P12, P18)를 발견하거나 "이것은 위험하다"와 같은 더 실행 가능한 통찰력(예: 키워드)을 원했다 (P10). 다른 참여자들은 세부 정보와 유용성 사이의 균형을 인정하며, P22는 "더 구체적이었으면 좋았겠지만, 그러면 더 많이 읽어야 할 것이다"라고 말했다. 참여자들은 정보가 포괄적이고 관련성이 높다고 평가했다. P2는 "개인 정보 처리 방침의 모든 중요한 내용이 포함되어 있다: 어떤 데이터가 수집되는지, 투명성, 법적 근거, 목적..."이라고 요약했다.
채팅 기능은 유연성, 오타 처리, 다국어 지원, 정교하거나 미묘한 쿼리 처리(P1, P7, P15) 측면에서 좋은 평가를 받았다. 응답은 일관되고 대화적이었으며, 종종 사용자 요구를 예측했다 (P9). P22는 "매우 구체적인 정보로 얼마나 정확하게 답변하는지 놀랐다"고 언급했다.
주제 3: 사용자 경험 및 인터페이스 상호작용 (RQ.3)
참여자들은 스마일리 아이콘이 빠르고 직관적인 통찰력을 제공하는 시각적 단서로서 좋다고 평가했다. P9는 "스마일리는 방해하지 않으면서 [개인 정보 처리 방침이] 좋은지 아닌지를 [빠르게 보여주기 때문에] 훌륭하다"고 말했다. 이 도구의 사용 편의성은 널리 칭찬받았으며, "사용자 친화적이고, 명확하며, 정중하다" (P6)고 묘사되었다. 일부 참여자들은 스크롤바 피하기(P8, P20), 명확성을 위한 채팅 형식 재구성(예: 구조화된 단락 및 주요 강조점) (P1, P8, P10, P11, P13, P14, P18, P21)과 같은 개선 사항을 제안했다. 음성 입력은 일부 사용자에게 사용되고 가치 있게 여겨졌으며, 접근성을 위한 오디오 출력 추가가 제안되었다 (P5, P12).
주제 4: 도구 신뢰성 및 신뢰도 (RQ.3)
참여자들은 일반적으로 이 도구를 높이 평가했지만, 신뢰성에 대한 우려가 제기되었다. P7은 환각(hallucinated) 또는 추측성 정보를 의심했고, P8은 정보의 출처에 의문을 제기했다: "때때로 주어진 정보가 정책 자체에서 나온 것인지 의심스러웠다. 때로는 가정처럼 표현되기도 했다." 신뢰도를 높이기 위해 참여자들은 관련 정책 섹션으로의 링크(P2, P8, P10, P13, P18, P22)를 제안했다. 또한 동적인 평가 기준에 대한 우려도 제기되었는데, 일부는 중요도에 따른 가중치가 부족하여 정책 간의 비교 가능성과 인지된 신뢰도를 떨어뜨린다(P3, P9, P12, P17, P22)고 느꼈다.
주제 5: 기능 및 기능 개선 권장 사항 (RQ.3)
참여자들은 대안 제시(P1, P4, P7, P12) 및 현재 개인 정보 보호 설정에 대한 상황별 피드백 제공(P15, P18)과 같은 더 솔루션 지향적인 디자인을 원했다. 일부는 PRISMe가 브라우저 개인 정보 보호 설정을 조정하여 표시되는 등급에 영향을 미치도록 허용하는 것에 개방적이었다 (P7, P8, P15).
주제 6: 사용자에게 미치는 영향 (RQ.2)
이 도구는 일반적으로 참여자들의 개인 정보 보호 인식을 높였다. P12는 "데이터 보호 주제에 대해 좀 더 민감해지는 데 도움이 된 것 같다. 이 짧은 세션만으로도 이미 유용했다"고 말했다. 다른 참여자들은 일반적으로 개인 정보 처리 방침을 무시했지만, 더 주의를 기울이겠다는 새로운 의도를 표명했다 (P1, P9). 이 도구는 또한 데이터 보호에 대한 비판적 사고를 장려했다. P11은 "실제로 어떤 데이터 보호 문제가 있을 수 있을까 생각했다"고 언급했다. 참여자들은 관련 개인 정보 보호 문제에 대한 이해도가 향상되었다고 보고했으며, P4는 평가 기준에 대한 설명 문장의 가치를 강조했다. 이러한 새로운 인식은 일부 참여자들에게 자신의 데이터에 대해 더 신중하게 생각하도록 유도했다: "내 데이터를 누구에게 맡길지 더 신중하게 생각하게 될 것 같다" (P12).
5.2 Chat Responses
우리는 챗 쿼리에 대한 LLM 응답 368개 중 60개(16.3%)에서 문제를 발견했으며, 이를 아래와 같이 시스템 관련 문제와 LLM 관련 문제로 분류했다. 발생 횟수 및 예시는 Appendix A.4를 참조하라.
우리 시스템과 관련된 문제: 자유 탐색(Scenario 3) 중 4개의 정책이 부분적으로 스크랩되어 13개의 불완전한 응답이 발생했다. LLM은 세부 사항을 환각하는 것을 피하고, 사용 가능한 콘텐츠를 기반으로 추상적인 응답을 제공했다. 4가지 사례는 HTML 대신 일반 텍스트에 의존하여 발생하는 맥락 관련 제한을 포함했다. 한 사례에서는 요청된 양식으로의 하이퍼링크를 놓쳤고, 세 사례에서는 단계별 개인 정보 설정 지침을 제공하지 못했다.
LLM과 관련된 문제: LLM은 정책에서 지나치게 완곡하고 마케팅적인 언어를 12번 그대로 반영하여, 안심시키지만 비판적이지 않은 결론을 추가했고, 이는 일부 참가자들(P9, P12, P17)을 짜증 나게 했다. 우리는 LLM이 명시적으로 요청하지 않는 한, 챗 응답에서 관련 정보를 부분적으로 무시하거나 생략한 12가지 사례를 발견했다. 이는 특히 특정 세부 정보를 찾는 연구 참가자들(P1, P3, P5, P17) 사이에서 사용자 불만을 야기했다. 8개의 일반적인 응답(Generic responses)은 주어진 정책에 대한 구체성이 부족했으며, 추가적인 설명을 위한 prompt가 필요했기 때문에 덜 유용하다고 인식되었다(P3, P9, P17). 5개의 응답에는 환각(hallucinations)이 포함되었는데, 한 사례는 개인 정보 보호 규정을 덜 준수하는 서비스를 추천하는 잠재적으로 해로운 경우였다. 다른 환각 사례는 정책에 명시되지 않은 자체 평가 또는 감사 세부 정보에 대한 조작된 정보를 포함했다. 사용자 쿼리에 대한 오해는 4개의 응답에서 분명하게 나타났다. 이러한 오해는 상호 작용의 흐름을 방해했지만, 일반적으로 사용자가 후속 쿼리를 통해 쉽게 식별하고 수정할 수 있었다(P8, P12, P16). 2개의 챗 응답은 겉보기에 모순되는 정보를 제시하여 사용자에게 혼란을 주었고, 상반된 신호를 보냈다. 기술적으로는 정확했지만, 그 표현 방식은 불필요한 의심이나 망설임을 유발했다(P11, P13).
6 Discussion
6.1 Behavioral patterns
참가자들이 PRISMe를 사용한 방식(예: 질문의 수와 복잡성)과 인터뷰 응답을 바탕으로, 우리는 고유한 행동 패턴과 프라이버시 요구사항을 가진 네 가지 범주의 참가자를 구분하였다. 이러한 프로필은 다양한 사용자 그룹에 맞춰 프라이버시 도구를 맞춤화하기 위한 프레임워크를 제공한다.
-
Targeted Explorers (P2, P7, P12, P17, P18, P20, P22): 상세하고 구체적인 정보를 찾아 깊이 있게 탐색한다. 이들은 사전 프라이버시 지식과 명확한 목표를 가지고 있으며, 고급 맞춤 설정 옵션을 요구하고 증거를 요청하는 경향이 있다.
-
Novice Explorers (P4, P13, P14, P19): 프라이버시 정책을 이해하는 데 있어 사전 지식과 자신감이 부족하다. 이들의 탐색은 미리 정의된 의제를 가지고 접근하기보다는, 정보 목표를 발견하고 정의하는 데 중점을 둔다. 이 그룹을 위한 프라이버시 도구는 단순성과 안내를 강조하여 학습 접근성을 높여야 한다.
-
Balanced Explorers (P1, P3, P8, P9, P10, P11, P15, P21): 정보 탐색과 특정 정보 찾기를 규칙적으로 결합한다. 이들은 유연성과 광범위한 개요를 통해 도구를 균형 있게 활용한다.
-
Minimalistic Users (P5, P6, P16): 효율성을 최우선으로 하며, 도구와의 상호작용이 최소화된다. 이들은 높은 수준의 요약에 만족하며, 보통 몇 번의 상호작용 후 사용을 중단한다. 이 그룹에게는 간결한 평가와 빠른 통찰력이 필수적이다.
6.2 RQ.1: How do users with varying privacy knowledge interpret PRISMe's privacy policy explanations?
핵심적인 통찰은 우리의 브라우저 확장 프로그램이 복잡한 개인정보처리방침 언어를 단순화한다는 점이며, 이는 모든 참가자들, 심지어 Targeted Explorers까지도 사용자의 개인정보처리방침 이해도를 높이는 데 매우 중요하다고 인식했다. 특히 Novice Explorers는 법률 용어를 평이한 언어로 번역해주는 "번역기" 기능에서 큰 이점을 얻었다. 이러한 단순화 기능은 LLM의 텍스트 단순화 잠재력을 검증하는 연구 [26]와 일치한다. 이 기능은 이전의 투명성 향상 도구들이 정책 인용문만 제공하고 사용자가 쉽게 이해할 수 있는 설명과 해석을 제공하지 못했던 간극 [21, 50, 52]을 성공적으로 해결한다. 또한 LLM은 철자 오류를 간과하고 다양한 언어에 적응하여 진입 장벽을 낮춘다. 우리의 음성 입력 기능은 포괄성을 촉진하며, 참가자들은 이러한 도구와의 다양한 상호작용 방식을 높이 평가했다. 이해도를 높이기 위해 향후 연구에서는 응답 형식 개선, 예를 들어 더 명확한 시각적 구조화 및 키워드 강조 등을 고려할 수 있다. 조정 가능한 설정은 Novice Explorers를 위한 간단한 설명부터 Targeted Explorers를 위한 기술 용어의 특정 세부 정보까지 전체 범위를 아우른다. 사용자가 적극적으로 참여할 수 있는 수준으로 복잡성을 분해하여 제공하는 개인화 기능은 사용자들에게 높이 평가되었으며, 우리와 같은 도구의 주요 목표가 되어야 한다. 개인화 및 고품질 제안은 차별적인 결과를 피하는 데 필수적이다. 왜냐하면 올바른 질문을 하거나 적절한 설정을 찾는 인지적 요구가 높은 문해력을 가진 사람들에게 유리하게 작용할 수 있기 때문이다 [40]. 기존 도구들은 개인정보 민감도 수준에 대한 맞춤 설정만 제공하며 [12], 이는 우리의 출력 길이 설정과 유사하지만, 설명의 복잡성을 조정하는 기능은 제공하지 않았다. 잠재적인 다음 단계로는 [17, 40]에서 논의된 자동화된 맞춤 설정과 메타인지적 요구를 줄이는 것을 목표로 하는 개별 평가 기준 [49] 등이 포함될 수 있다.
6.3 RQ.2: How does using PRISMe shape users' awareness of privacy risks?
PRISMe는 모든 사용자 프로필에서 인식을 높이며, Novice Explorers와 Minimalistic Users가 가장 큰 변화를 보였고, 기존 지식을 가진 Targeted Explorers는 가장 적은 변화를 보였다. 우리의 확장 기능은 특히 Balanced Explorers에게 성찰을 장려한다. 이는 감정적인 반응을 유발하여 그들이 개인 정보 보호 문제에 더 깊이 관여하도록 유도한다. 향후 연구에서는 항상 표시되는 초기 스마일리가 인식을 높이는 정도를 조사할 수 있다.
잠재적인 위험은 도구의 평가에 과도하게 의존하여 사용자들이 보호받고 있다고 느끼면서 인식이 약화될 수 있다는 점이다 [46]. LLM 출력의 설득력 있는 특성은 사용자를 오판으로 이끌 수 있다 [28]. 이는 예를 들어 PrivacyInjector [52]가 직면하지 않는 위험이지만, 여전히 사용자 인식을 높이는 데 성공한다. 미래의 도구는 기대치를 관리하고, LLM 출력의 설득력 있는 특성과 비판적 사고를 장려하는 메커니즘(예: 불확실성 표현 [27] 또는 추가 증거 제공) 사이의 균형을 맞춰야 한다.
6.4 RQ.3: How suitable and usable is PRISMe for everyday use across different user contexts and tasks?
사용자들은 88.9점의 SUS(System Usability Scale) 평가에서 알 수 있듯이, 모든 그룹에서 PRISMe가 쉽고 직관적이라고 평가했다. 그들은 조절 가능한 창 크기, 채팅 형식, 채팅 입력 및 응답에 대한 혼란과 같은 세부 사항 개선을 제안했다. 가장 주목할 만한 점은 참가자들이 기술 전문가의 지원을 전혀 필요로 하지 않았다는 것이다. 연구 전에 참가자들에게 실습 튜토리얼을 제공했지만, 이는 설치 후 한 번의 튜토리얼만으로 충분할 수 있음을 시사한다. Windl et al.은 사용자 익숙화를 위해 "우연한 발견(serendipitous discovery)"에 의존하기도 한다.
그러나 사용자들은 웹사이트마다 평가 기준이 다르다는 점과 기준의 중요도에 따른 가중치 부여가 부족하다는 점에서 어려움을 겪었다. 고정된 사용자 중심 기준 세트를 식별하고 정의하는 것은 평가 투명성과 비교 가능성을 향상시킬 수 있다. 기준의 중요도는 사용자 선호도에 따라 달라지므로, 기준에 가중치를 부여하는 것은 도전적인 과제이다. 관련 도구들 또한 주로 GDPR 기반의 평가 기준에 가중치를 부여하지 않고 있다 [34, 50]. 기본 기준 가중치를 식별하고, 사용자 정의 옵션 또는 사용자의 선호도를 자동으로 감지하여 가중치를 변경하는 방법에 대한 추가 연구가 필요하다.
참가자들은 계층화된 디자인과 다양한 맥락에서의 사용자 정의 옵션을 높이 평가했으며, 일부는 연구 중에 설정을 변경하기도 했다. 이를 통해 그들은 탐색하는 세부 정보 수준을 세밀하게 제어할 수 있었다. Novice Explorers와 Balanced Explorers는 일상생활에서 이 도구를 사용하는 데 가장 큰 관심을 보였으며, 일부는 자신의 경험을 **재미있다(playful)**고 묘사했다. 특히 Targeted Explorers는 전문적인 환경에서 이 도구를 사용하고 싶다는 의사를 표명했다.
6.5 LLM limitations and further considerations
**환각(Hallucination)**은 LLM 기반 시스템의 한계점이다. 368개의 채팅 응답을 분석한 결과, 환각은 드물게 발생했으며(5건), 일반적으로 무해하고 쉽게 식별 가능했다. 예를 들어, LLM이 사실상 더 좋지 않은 웹 서비스를 추천한 경우가 있었는데, 이는 더 일반적인 지침을 제공함으로써 해결될 수 있는 행동이다.
효율성을 우선시하거나 도구를 맹목적으로 신뢰하는 Minimalistic Users와 Novice Explorers는 환각에 가장 취약하며, 주요 응답에서 증거를 자동으로 강조하고 시각적 신뢰도 지표를 추가하여 사용자의 검증 프롬프트에 대한 의존도를 줄이는 것이 도움이 될 것이다.
출력에 대해 더 비판적인 Balanced Explorers는 응답을 숙고하며 환각을 발견할 가능성이 높았다.
회의적인 태도를 특징으로 하는 Targeted Explorers는 검증을 위해 정책 텍스트로부터 증거를 요청했으며, 환각의 영향을 가장 적게 받았다.
**Retrieval-Augmented Generation (RAG)**은 환각을 효과적으로 줄일 수 있을 것이다.
추가 고려 사항 (Further Considerations): 불완전한 스크래핑은 부분적인 정책에 기반한 LLM 응답을 초래할 수 있으며, 사용자에게 이를 알리지 않을 수 있다. 정책 분류를 위한 ML 기반 기술 [23]을 추가하면 텍스트 무결성을 향상시킬 수 있다. HTML 코드와 동의 대화(consent dialogues)를 LLM 입력으로 포함하면 단계별 개인정보 보호 지침을 제공할 수 있을 것이다. 향후 연구에서는 오픈 소스 및 로컬에서 실행되는 LLM을 탐색할 수 있는데, 이는 개인정보 보호 자체가 민감한 문제이기 때문이다.
방법론적으로, Scenario 1과 Scenario 2는 심층 탐색 또는 정책 비교를 위한 예시적인 설정만을 제공한다. 두 시나리오는 다른 설정에서 달라질 수 있으며, 참가자들의 도구 사용 사례와 다를 수 있다. Scenario 3은 참가자들의 도구 사용 사례를 포착하는 것을 목표로 하지만, 실험실 환경이 그들의 일상생활 사용 행동을 정확하게 반영하지 못할 수 있다.
우리의 샘플 크기는 일반화 가능성을 제한한다. 식별된 네 가지 사용자 프로필은 완전하지 않을 수 있으며 추가 탐색이 필요하다. 후속 in-the-wild 연구는 실제 사용자 행동과 도구 성능에 대한 더 깊은 통찰력을 제공할 수 있을 것이다. 향후 연구에서는 더 객관적인 결과를 위해 인식 및 이해도 테스트도 포함할 것이다.
7 Conclusion
AI 기반 초개인화 시대에 데이터 수집 증가는 개인 정보 보호 위험을 높이며, 복잡한 개인 정보 보호 정책을 쉽게 접근할 수 있도록 하는 도구의 필요성을 증대시킨다. 기존 솔루션들은 개인 정보 보호 인식을 개선하고, 개인 정보 보호 정책을 이해하기 쉽고 효율적으로 전달하는 데 종종 실패한다. 우리는 개인화된 LLM 기반 개인 정보 보호 정책 평가에 대한 최초의 정성적 사용자 연구(N=22) 를 제공한다. 이 연구를 위해 우리는 이러한 도구의 프로토타입을 Chrome 확장 프로그램으로 개발했다. 우리는 사용자들이 인지하는 개인 정보 보호 인식 및 이해도 향상을 확인했지만, 동시에 LLM의 환각(hallucination) 및 정책 증거 부족에 대한 우려도 발견했다. 우리의 연구 결과는 미래 LLM 기반 개인 정보 보호 솔루션을 위한 지침을 제공한다.
Acknowledgments
저자들은 독일 연방 교육 연구부(Federal Ministry of Education and Research of Germany)와 작센 주 과학 문화 관광부(Sächsische Staatsministerium für Wissenschaft Kultur und Tourismus)의 AI 연구 우수 센터 프로그램인 "Center for Scalable Data Analytics and Artificial Intelligence Dresden/Leipzig" (프로젝트 식별 번호: ScaDS)를 통한 재정 지원에 감사드립니다.
A Appendix
A. 1 Prompting
A.1.1 초기 평가 생성 프롬프트 접근 방식. 출력은 최대 600단어여야 합니다! 당신은 데이터 보호 전문가이자 윤리 위원회 위원입니다. 개인정보처리방침이 주어졌습니다. 당신의 임무는 당신의 관점에서 윤리적으로 의심스러운 데이터 보호 선언의 측면을 밝혀내는 것입니다. 다음 단계에 따라 진행하십시오: (1) 기준: 당신의 관점에서, 이 개인정보처리방침에 대한 관련 윤리적 테스트 기준을 나중 평가를 위한 기준으로 식별하십시오. 테스트 기준을 명명할 때, 윤리 분야에서 일반적인 표준화된 용어와 개념을 고수하십시오. 짧게 작성하십시오! (2) 분석: 이를 바탕으로 개인정보처리방침에서 윤리적 문제 또는 윤리적으로 의심스러운 상황이 있는지 확인하십시오. (3) 평가: 2단계 완료 후에만: 당신의 분석을 바탕으로 각 기준에 대해 5점 리커트 척도로 개인정보처리방침을 평가하십시오. 이 평가가 무엇을 의미하는지 설명하십시오. 5점 만점의 이상적인 경우와 1점의 최악의 경우가 어떻게 보이는지 설명하십시오. 이 단계의 출력은 다음과 같아야 합니다: [평가 기준 삽입]: [평가 삽입] [줄 바꿈 삽입] [정당화 삽입] (4) 결론: 당신의 평가를 숙고하고 완전한지 확인하십시오.
중요: 평가 전에 분석의 오류를 확인하고 필요한 경우 수정하십시오. 당신은 당신의 접근 방식을 명확하고 간결하게 제시하고 언급된 단계를 따라야 합니다. 당신의 출력은 600단어를 초과해서는 안 됩니다.
A.1.2 채팅 답변 생성 프롬프트 접근 방식. 시스템 프롬프트 기준 채팅: 짧게 작성하십시오! 개인정보처리방침: <여기에 개인정보처리방침> | 평가: <여기에 기준 평가 결과>. 사용자는 이 평가가 개인정보처리방침에서 어떻게 정당화되는지에 대해 더 알고 싶어 합니다. 질문에 답할 때, 평가의 주어진 주제에 집중하십시오. 짧게 작성하십시오! <설정에 따른 복잡성 및 답변 길이>
시스템 프롬프트 일반 채팅: 당신은 소비자 보호 분야에서 다년간의 경험을 가진 데이터 보호 전문가입니다. 당신은 다음 개인정보처리방침을 분석했으며, 사용자에게 미치는 위험과 윤리적 함의를 알고 있습니다: <여기에 개인정보처리방침>. 당신은 대화에서 사용자에게 조언하고 그들에게 미치는 영향을 설명해야 합니다. <설정에 따른 복잡성 및 답변 길이>
A.1.3 제안된 질문 생성 프롬프트 접근 방식. 시스템 프롬프트: 당신의 임무는 개인정보처리방침에 대해 질문하는 것입니다. 당신의 출력은 세 가지 질문으로 구성됩니다: 1. 질문 1; 2. 질문 2; 3. 질문 3. 질문을 번호가 매겨진 목록으로 출력하십시오. 이미 질문한 내용은 반복하지 마십시오: <여기에 이미 질문한 내용> 사용자 프롬프트: 구체적으로: 개인정보처리방침에 대해 다음 주제로 질문하십시오: <여기에 기준 삽입>. 이전 채팅의 맥락을 수용하십시오: <여기에 채팅 기록>
A. 2 Scenario Description
저희가 제공하는 브라우저 확장 프로그램을 사용하여 웹사이트의 개인 정보 보호 관행에 대해 알아보세요. 다음 20분 동안 이 시나리오들을 직접 수행하게 됩니다. 20분은 모든 시나리오를 합한 시간입니다. 도움이 필요하거나 질문이 있거나 막히는 부분이 있으면 알려주세요.
시나리오 1: 현재 세계 사건에 대해 알아보고 싶습니다. Focus를 정기적으로 읽고 있으며 디지털 서비스를 사용해보고 싶습니다. [저자 국가의 뉴스 포털]이 데이터 보호를 어떻게 처리하는지 알아봅니다: https://www.focus.de/ 자세히 살펴보는 데 필요한 시간을 가지세요. 가장 중요한 깨달음은 무엇입니까? 이제 디지털 구독을 하려고 한다고 가정해 봅시다. 이제 결제 방법을 선택해야 합니다. PayPal 계정을 만들려고 생각 중입니다. 도구를 사용하여 PayPal의 데이터 보호 관행에 대해 알아봅니다. https://www.paypal.com/de/digital-wallet/ways-to-pay/checkout-with-paypal 자세히 살펴보는 데 필요한 시간을 가지세요. 가장 중요한 깨달음은 무엇입니까?
시나리오 2: 온라인 쇼핑 중이라고 상상해 보세요. 책을 사고 싶습니다. 인터넷 검색 중 다양한 웹 상점을 발견합니다. 구매를 위해 최소한 주소, 연락처 정보 및 결제 정보가 필요하다고 가정해 봅시다: https://www.hugendubel.de/de, https://www.buchkatalog.de/, https://www.amazon.de/ref=nav_logo?language=de_DE\¤cy=EUR, 및 https://www.kopp-verlag.de/. 이 각 사이트에 대해 구매 및 해당 사이트의 데이터 보호 표준에 동의하는지 여부를 고려해야 합니다. 애플리케이션을 사용하여 개인 데이터 보호 선호도와 관련하여 사이트를 탐색하세요. 사이트를 비교하는 것도 환영합니다: 평가 [상점 1-4]: 어디에서 가장 구매할 가능성이 높습니까? 이유는 무엇입니까?
시나리오 3: 자유 탐색: 데이터 보호 관행에 대해 알아보고 싶은 웹사이트를 자유롭게 검색하세요. 남은 시간을 집에서처럼 자유롭게 탐색하는 데 사용하세요. 호기심을 자유롭게 발휘하세요.
A. 3 Interview Guide
| Exemplary Questions | Expected Results |
|---|---|
| 확장 프로그램에 대한 첫인상은 어떠셨나요? <br> 놀랍거나 예상치 못한 점이 있었나요? <br> 사용 중 문제가 발생했나요? <br> 확장 프로그램이 제공하는 정보에 대해 어떻게 느끼셨나요? | 첫 생각과 인상, 예상과의 차이점 |
| 애플리케이션에서 제공되지 않은 정보가 있었나요? <br> 애플리케이션에서 사용된 언어는 얼마나 명확했나요? 혼란스럽거나 불분명하다고 느낀 용어, 문구 또는 지침이 있었나요? <br> 제시된 정보에 압도당했다고 느낀 순간이 있었나요? <br> 특정 접근성 요구사항(예: 시각 또는 청각 장애)이 있는 경우: 확장 프로그램이 이를 얼마나 잘 수용했나요? | RQ. 1 평가 |
| 웹사이트가 가질 수 있는 데이터 보호 문제에 대해 더 잘 이해하게 되었다고 느끼시나요? 설명해주세요! <br> 확장 프로그램이 이전에 알지 못했던 개인 정보 보호 관련 문제를 알려주었나요? 그렇다면 어떤 문제였는지 설명해주실 수 있나요? <br> 이 확장 프로그램을 사용하면서 브라우징 습관을 바꿀 의향이 있으신가요? 그렇다면 어떻게 바꾸시겠어요? | RQ. 2 평가 |
| 확장 프로그램을 사용하여 관심 있는 정보를 얼마나 빨리 찾을 수 있었나요? <br> 웹사이트의 데이터 보호에 대한 개요를 파악하는 데 확장 프로그램이 얼마나 효과적이었나요? <br> 확장 프로그램 인터페이스의 전반적인 디자인에 대해 어떻게 생각하시나요? <br> 불필요하거나 혼란스럽다고 느낀 기능이나 디자인 요소가 있었나요? <br> 확장 프로그램이 놓쳤거나 충분히 강조하지 않았거나 올바른 표현 방식으로 제시하지 않은 정보가 있었나요? 어떤 변경을 하시겠어요? <br> 확장 프로그램의 어떤 측면이 만족도 또는 불만족도에 가장 큰 영향을 미쳤나요? | RQ. 3 평가 |
| 확장 프로그램 사용 경험에 대해 공유하고 싶은 다른 점이 있으신가요? | 미해결 문제 |
A. 4 Issues in LLM Chat Responses
| Problem | Occurrences | Example |
|---|---|---|
| Incompletely <br> Scraped Policies | 13 (4 policies) | 불완전하게 스크랩된 정책의 경우: "[...] 보안 조치에 대한 명확한 세부 정보가 없습니다." |
| Context-related <br> Limitations | 4 | 질문: "이 양식의 링크는 무엇인가요?" <br> 답변: "[...] 온라인 데이터 보호 요청 양식의 특정 링크는 개인정보처리방침에 직접 제공되어 있지 않습니다. [...]" |
| Overly Euphemistic Statements | 12 | 질문: "내 데이터는 어디로 전송되나요?" <br> 답변: "[...] 요약하자면: 귀하의 데이터는 주로 TikTok 내부 및 신뢰할 수 있는 파트너와 공유되어 앱을 운영하고 개선하는 데 사용됩니다." |
| Omission of Information | 12 | 질문: "[...] 그리고 개인정보처리방침에 어떻게 명시되어 있나요?" <br> 답변: "[...] 이는 개인정보처리방침의 관련 섹션에 설명되어 있습니다." |
| Generic Responses | 8 | 질문: "사용자가 언제든지 동의를 철회할 수 있는 옵션은 무엇이며, 이 과정은 어떻게 전달되나요?" <br> 답변: "사용자는 계정의 특정 설정을 변경하거나 고객 서비스에 연락하여 언제든지 동의를 철회할 수 있습니다. 이 과정은 개인정보처리방침에 설명되어 있습니다. [...]" |
| Hallucinations | 5 | 질문: "지금까지 읽은 개인정보처리방침 중 최악은 무엇이었나요?" <br> 답변: "[...][제가 본 최악 중 하나는] 매우 모호하고 불분명했던 작은 소셜 미디어 앱의 것이었습니다. [...]" |
| Misunderstanding <br> User Queries | 4 | 질문: "개인정보처리방침을 평가하기 위한 전체 카테고리를 보여주세요." <br> 답변: "물론입니다. 개인정보처리방침의 가장 중요한 카테고리와 측면을 요약해 드리겠습니다 [...]." |
| Mixed Signals | 2 | 질문: "가장 필요한 데이터만 수집되나요?" <br> 답변: "아니요, PayPal은 민감한 데이터를 포함하여 다양한 데이터 카테고리를 수집합니다. 필요한 데이터만 수집되도록 데이터 최소화 조치를 취하고 있지만, 데이터 수집에는 여전히 다양한 유형의 정보가 포함됩니다. 이는 서비스를 제공하고, 보안을 보장하며, 법적 요구 사항을 준수하는 데 필요합니다." |
A. 5 Codebook
LLM 기반의 인터랙티브 개인정보 처리방침 평가
| Code | Description | #Passages |
|---|---|---|
| Topic 1: 사용자 태도, 동기 및 행동 | ||
| indifference | 데이터 보호 문제에 대해 참가자들이 무관심하거나 관심이 없음 | 7 |
| emotional response | 도구가 참가자들의 감정적 반응을 유발함 | 7 |
| professional use cases | 비즈니스 프로세스를 용이하게 하는 도구의 사용 사례 | 10 |
| existing privacy misconceptions | 참가자들이 개인정보 보호에 대해 오해하거나 현실을 왜곡하여 인식함 | 4 |
| multifactorial & contextdependent decision making | 참가자들이 데이터 보호 외에 여러 요인에 기반하여 결정을 내리며, 주어진 맥락에 따라 달라진다고 언급함 | 11 |
| habitualized behavior | 참가자들이 기존의 습관화된 행동과 변화의 불편함 때문에 행동을 바꾸려 하지 않음 | 15 |
| curiosity-driven use | 참가자들이 호기심으로 도구를 탐색하여 사용함 | 9 |
| personal usage interest | 참가자들이 일상생활에서 도구를 사용하고 싶어 함 | 15 |
| insecurity regarding data protection | 참가자들이 데이터 보호 문제에 대해 불안감을 느낌 | 3 |
| behavior depends on setting of use | 공용 컴퓨터 사용 또는 개인 컴퓨터 사용과 같은 주어진 환경에 따라 사용 패턴이 다를 수 있음 | 1 |
| negative predisposition and distrust | 참가자들이 웹사이트의 데이터 보호 수준이 매우 낮을 것이라고 예상하거나, 웹사이트 디자인에 부정적인 편견을 가지거나, 웹사이트의 데이터 보호에 대해 전반적인 불신을 가짐 | 30 |
| Topic 2: 정보 품질 및 명확성 | ||
| language clarity and simplicity | 사용된 언어가 이해하기 쉽고 명확하며 단순함 | 35 |
| quick and effective overview | 도구가 참가자들에게 모든 관련 정보에 대한 빠르고 효과적인 개요를 제공함 | 51 |
| Evaluation transparency | 평가 과정이 사용자에게 얼마나 투명한지에 대한 측면 | 22 |
| Levels of detail | 제공되는 세부 정보 및 맥락의 정도와 애플리케이션 내에서 다양한 깊이 수준의 평가를 얼마나 차별화하는지 | 35 |
| answer quality | 챗봇 답변이 참가자들에게 효과적으로 도움이 됨 | 35 |
| Communicated information is incomplete | 도구가 사용자에게 정책에 해당 주제에 대한 구체적이거나 모호한 정보가 없음을 전달함 | 7 |
| chat flexibility | 챗봇이 오타, 다른 언어, 맥락을 벗어난 영역 또는 기타 문제들을 처리함 | 6 |
| chat consistency | 챗봇 대화가 일관되고 연속적이며, 유사한 정책들 사이에서 동일한 질문에 대한 챗봇 답변도 유사함 | 5 |
| less vague & more to the point | 도구가 제시하는 정보가 덜 모호하고 더 핵심적이어야 함 | 20 |
| adaptability with settings | 설정을 변경하여 도구의 조정 가능성에 대한 칭찬 | 11 |
| information rich | 애플리케이션이 제시하는 정보가 풍부하고 관련성 있는 모든 것을 다룸 | 17 |
| Topic 3: 사용자 경험 및 인터페이스 상호작용 | ||
| good visual cue | 시각적 단서로서 초기 스마일리 아이콘이 디자인, 배치 및 인식 증가에 대해 칭찬받음 | 29 |
| formatting and layout issues | 애플리케이션의 서식 및 레이아웃 문제, 예: 챗봇 출력 | 36 |
| suggestion quality | 도구가 제공하는 챗봇 쿼리 제안의 품질이 영감을 주고 안내하는 효과에 대해 칭찬받지만, 너무 길고 부정확하며 다양하지 않다는 비판도 받음 | 23 |
| playful | 참가자들이 도구를 재미있고 유쾌하게 인식함 | 2 |
| visual cue issues | 시각적 단서가 너무 방해가 되거나, 감정적으로 부담스럽거나, 나타나지 않거나, 가려지거나, 색상이 변하는 등의 기술적 문제 | 22 |
| easy and intuitive use | 애플리케이션이 얼마나 쉽고 직관적으로 사용 가능한지 | 51 |
| Loading times | 애플리케이션 로딩 시 피드백 및 긴 로딩 시간에 대한 측면 | 11 |
| More differentiated initial scoring | 더 미묘한 초기 평가 점수 | 4 |
| Button usability | 버튼이 클릭 시 충분한 피드백을 제공하고 적절하게 명명되어 사용하기 쉬운지 여부 | 14 |
| navigation difficulties | 참가자들이 주로 스크롤링 때문에 애플리케이션 탐색에 어려움을 겪음 | 18 |
| challenging to ask precise questions | 참가자들이 특정 정보를 요청할 때 정확한 질문을 구성하는 데 어려움을 겪음 | 6 |
| criteria dashboard landing page | 개요 대시보드를 기본 보기로 설정 | 4 |
| difficult-to-find or confusing UI elements | 챗봇 출력과 텍스트 필드의 혼동, 용어 설명 및 정책 텍스트를 찾기 어려움 포함 | 27 |
| responsive | 도구가 빠르게 반응함 | 8 |
| accessibility features | 음성 입력 및 오디오 출력 | 7 |
| Code | Description | #Passages |
|---|---|---|
| Topic 4: 도구 신뢰성 및 신뢰도 | ||
| hallucination risks and LLM limitations | LLM의 사실 정확도 한계 | 27 |
| chat relativizes initial assessment | 챗봇 답변이 도구의 초기 평가와 어느 정도 모순되는 경우 | 6 |
| trust issue in tool | 참가자들이 도구 결과에 대한 신뢰 문제 표명 | 17 |
| scraper limitations | 도구가 사용하는 스크레이퍼가 일부 페이지의 개인정보 처리방침에 접근할 수 없음 | 9 |
| inconsistent evaluation criteria | 평가 기준이 고정되어 있지 않고 정책 평가마다 변경되어 비교 가능성 문제가 발생함 | 22 |
| validate correct policy | 도구가 올바르고 완전한 정책이 스크랩되었는지 검증해야 함 | 13 |
| rating accuracy | 도구에 의한 정책 평가의 정확성 | 4 |
| account for differing relevance of criteria | 모든 평가 기준이 동일하게 관련성이 있는 것은 아니므로, 평가 시 이를 고려해야 함 | 5 |
| policy evidence | 도구가 제시된 정보에 대한 증거로 정책의 인용문이나 링크를 활용해야 함 | 14 |
| Topic 5: 기능 및 기능 개선 권장 사항 | ||
| More customization options | 도구의 더 맞춤화된 사용을 위한 추가 설정 | 4 |
| actionable solution | 도구가 권장 사항, 대안, 쿠키 설정 자동 조정 등 실행 가능한 해결책을 제공해야 함 | 13 |
| side-by-side comparison | 참가자들이 여러 페이지 간의 나란히 비교를 원함 | 13 |
| broader focus on security threats & leaks | 도구가 사이버 보안을 더 광범위하게 다루고 최근 침해 사례를 강조해야 함 | 4 |
| communicate policy length / complexity | 정책 길이 및 복잡성에 대한 배경 정보 제공 | 1 |
| contextual feedback privacy setings | 현재 개인정보 설정 및 해당 페이지에서의 맥락에 대한 피드백 제공 | 4 |
| read-only variant | 인터랙티브 챗봇 없이 읽기 전용으로 도구를 변경할 것을 제안 | 1 |
| multiple services involved | 일반적으로 사용자 목표 달성에는 하나의 서비스만 관여하는 것이 아니므로, 사용자 여정 전반에 걸쳐 관련된 모든 서비스를 확인해야 함 | 1 |
| dark mode | 다크 모드 | 1 |
| window size & scaling | 애플리케이션의 창 크기 및 요소 스케일링이 더 크고 조절 가능해야 함 | 20 |
| Topic 6: 사용자에게 미치는 영향 | ||
| Pushes reflection process | 애플리케이션 활용이 참가자들의 데이터 보호에 대한 성찰 과정을 촉진함 | 6 |
| learning and exploration process | 탐색 과정에서 개인정보 보호에 대해 학습함 | 11 |
| improved understanding | 참가자들이 데이터 보호에 대해 무언가를 학습함 | 19 |
| raised concern | 도구 사용으로 인해 참가자들이 데이터 보호에 대한 우려가 증가함 | 17 |
| improved awareness | 도구 사용으로 인해 참가자들이 개인정보 보호 문제에 대해 인식하게 됨 | 46 |
A. 6 Questionnaire Results
Figure 2: System Usability Scale 결과 (별표(*)가 있는 질문은 점수가 반전됨; 항상 높은 값이 더 좋음).
Figure 3: 5점 Likert 척도(1: 전혀 동의하지 않음; 5: 전적으로 동의함)로 평가한 질문 결과.