Title:
Language Access and Worldview Formation in the LLM Era: Inference-Post-Training Cycles and New Inequalities in Information Democracy
abstract
Large Language Models (LLMs) are becoming infrastructural systems that shape how public knowledge is produced, circulated, and legitimized. While existing research focuses on data bias and harmful outputs, this paper examines how LLMs restructure the conditions of democratic participation through what we call "worldview politics."
We argue that LLMs function as worldview machines whose outputs converge toward English-centric norms and probabilistic averages. This convergence emerges through three interconnected political layers: (i) linguistic worldview layer shaped by English-centric training data and cross-lingual semantic drift, (ii) access layer determined by material conditions of electricity, network infrastructure, and regulatory environments, and (iii) inference-post-training loop layer where user interactions become resources for model alignment. Together, these produce dual convergence: linguistic standardization and judgment alignment.
We demonstrate this framework through (1) an AI Access Map showing infrastructure-based inequality across 15 countries, and (2) multilingual prompt comparisons revealing template convergence in policy justification tasks. Our analysis shows that access inequality determines who participates in shaping the "baseline" of public rationality. High-access societies generate more interaction data, gaining editorial power over future model behavior through post-training processes.
We reconceptualize information democracy and linguistic democracy for the LLM era. Information democracy must extend beyond access rights to include representativeness in justification formats. Linguistic democracy requires not just multilingual support but autonomy for diverse linguistic worldviews in shaping alignment norms. We propose three institutional mechanisms: Language Impact Assessment to evaluate effects on justification formats across languages, Multilingual Alignment Governance to ensure community participation in defining "good answers," and Public Knowledge Infrastructure to democratize data and computational resources.
This paper contributes a theoretical framework integrating linguistic relativity, epistemic injustice, and technology politics to analyze LLMs as democratic infrastructure. Our policy proposals aim to prevent LLMs from naturalizing particular worldviews as universal rationality.
Keywords:
LLM worldview politics; language access inequality; inference-alignment loop; dual convergence; information democracy; AI Access Map; worldview machine
제목
LLM 시대의 언어 접근성과 세계관 정치: 추론–사후학습 순환구조를 통한 정보 민주주의의 새로운 불평등
초록
대규모 언어모델(LLM)은 언어 데이터를 확률적으로 압축해 다음 토큰을 예측하는 시스템이지만, 사회적으로는 단순한 “텍스트 생성기”를 넘어 공적 지식의 생산 · 유통 · 정당화에 관여하는 인지적 인프라로 기능하기 시작했다. 본 논문은 LLM을 “언어 데이터 위에 구축된 세계관 기계(worldview machine)”로 규정하고, 그 세계관이 (i) 훈련 데이터의 영어 중심성, (ii) 국가 · 계층 · 언어권에 따라 달라지는 접근성(전력 · 네트워크 · 데이터센터 · 규제 · 비용), (iii) 추론 과정에서 생성되는 상호작용 산출물이 사후학습(post-training) 및 정렬(alignment) 데이터로 재흡수되는 순환구조를 통해 동적으로 강화된다는 점을 이론적으로 모델링한다. 특히 다국어 모델에서 의미 표상이 언어 간 완전히 동일하지 않으며, 비영어 입력이 영어 중심 방향으로 기울 수 있음을 보이는 연구는 영어 중심성이 단지 성능 격차가 아니라 “자연스러움”과 “합리성”의 규범을 재편하는 문제임을 시사한다. 더 나아가 LLM 출력은 통계적으로 ‘평균적 해답(probabilistic average)’에 수렴하는 경향을 갖고, 인간은 불확실한 판단에서 인지 비용을 절감하고 책임 부담을 낮추기 위해 제시된 기준선에 의존하는 휴리스틱과 자동화 편향을 보일 수 있다. 그 결과 사회의 판단 기준은 최선의 해답을 탐색하기보다, 보편적으로 승인될 가능성이 높은 “평균/표준 해답”에 점진적으로 수렴 · 종속될 위험이 있다. 본 논문은 이를 ‘언어적 세계관 층–접근성 층–추론 · 사후학습 층’의 3중 정치 구조와 ‘언어 수렴–판단 수렴’의 2중 수렴으로 통합한 메타 이론(LLM Worldview Politics)으로 제시하며, 정보 민주주의 · 언어 민주주의 · 인지적 시민권의 관점에서 정책 · 제도 · 플랫폼 설계 방향(언어 영향평가, 다국어 정렬 거버넌스, 공공 지식 인프라)을 제안한다.
Keywords
LLM 세계관 정치; 언어 접근성 불평등; 추론-정렬 순환; 이중 수렴; 정보 민주주의; AI 접근 지도; 세계관 기계