유출된 데이터, 중국의 AI 검열 시스템 실체 드러내

GPT매거진 갤러리

자동 짤방 이미지

이미지가 없습니다.

자동 짤방으로 사용할 이미지를 등록해 주세요.

1/3

영포티가 20대 여자에게 좋아요를 보내 데이트까지 이어질 확률은? https://news.yahoo.co.jp/articles/fff5a21c599d226f426cbb06fb9522eb142ea86d 작성자 : 묘냥이

유출된 데이터, 중국의 AI 검열 시스템 실체 드러내

GPTMAGAZINE

2025.03.27 18:55:56

조회 2940 추천 38 댓글 10

중국 농촌의 빈곤에 대한 불만. 부패한 공산당원에 관한 뉴스 보도. 기업가들을 갈취하는 부패 경찰에 대한 도움 요청.

이들은 중국 정부가 민감하다고 간주하는 모든 콘텐츠를 자동으로 플래깅하도록 설계된 정교한 대규모 언어 모델에 입력된 133,000개 사례 중 일부에 불과하다.

최근 유출된 데이터베이스는 중국이 이미 강력한 검열 시스템을 더욱 강화하는 AI 시스템을 개발했으며, 이는 천안문 광장 학살과 같은 전통적인 금기를 훨씬 넘어선다는 것을 보여준다.

이 시스템은 주로 온라인에서 중국 시민을 검열하는 데 초점을 맞추고 있지만, 중국 AI 모델의 이미 광범위한 검열을 개선하는 등 다른 목적으로도 사용될 수 있다.

중국 검열을 연구하는 UC 버클리의 연구원이자 데이터셋을 검토한 샤오 치앙(Xiao Qiang)은 이는 중국 정부나 그 관련 기관이 억압을 개선하기 위해 LLM을 사용하고자 한다는 "명확한 증거"라고 말했다.

"키워드 기반 필터링과 수동 검토를 위해 인간의 노동력에 의존하는 전통적인 검열 메커니즘과 달리, 이러한 지침으로 훈련된 LLM은 국가 주도의 정보 통제의 효율성과 세분화를 크게 향상시킬 것입니다,"라고 치앙은 말했다.

이는 권위주의 정권들이 최신 AI 기술을 빠르게 채택하고 있다는 증거가 늘어나는 추세다. 예를 들어, 2월에 OpenAI는 여러 중국 기관이 LLM을 사용하여 반정부 게시물을 추적하고 중국 반체제 인사들을 비방하는 것을 포착했다고 밝혔다.

워싱턴 D.C.의 중국 대사관은 성명에서 "중국에 대한 근거 없는 공격과 비방"에 반대한다며, 중국은 윤리적 AI 개발에 큰 중요성을 부여한다고 말했다.

이 데이터셋은 보안 연구원 NetAskari에 의해 발견되었으며, 그는 바이두 서버에 호스팅된 보안이 되지 않은 Elasticsearch 데이터베이스에 저장된 것을 발견한 후 샘플을 공유했다.

이는 두 회사의 관여를 나타내지는 않는다 - 모든 종류의 조직이 이러한 제공업체에 자신의 데이터를 저장한다.

누가 정확히 이 데이터셋을 구축했는지에 대한 표시는 없지만, 기록에 따르면 데이터는 최신이며 가장 최근 항목은 2024년 12월까지 이어진다.

ChatGPT에 프롬프트를 입력하는 방식과 기묘하게 유사한 언어로, 시스템 제작자는 unnamed LLM에게 콘텐츠가 정치, 사회 생활 및 군사와 관련된 민감한 주제와 관련이 있는지 파악하도록 지시한다. 이러한 콘텐츠는 "최우선 순위"로 간주되며 즉시 플래깅되어야 한다.

최우선 순위 주제에는 오염 및 식품 안전 스캔들, 금융 사기, 노동 분쟁이 포함되며, 이는 중국에서 때때로 공개 시위로 이어지는 뜨거운 이슈다 - 예를 들어, 2012년 쉬팡 반오염 시위 등이 있다.

모든 형태의 "정치 풍자"가 명시적으로 타겟팅된다. 예를 들어, 누군가가 역사적 비유를 사용하여 "현 정치 인물"에 대한 요점을 만들면 즉시 플래깅되어야 하며, "대만 정치"와 관련된 모든 것도 마찬가지다. 군사 문제도 광범위하게 타겟팅되며, 여기에는 군사 이동, 훈련 및 무기에 대한 보고가 포함된다.

사회적 불안을 일으킬 가능성이 있는 주제가 반복되는 테마다. 예를 들어, 한 스니펫은 중국 경제가 어려움을 겪으면서 증가하고 있는 문제인 부패한 지역 경찰이 기업가들을 갈취하는 것에 대해 불평하는 사업주의 게시물이다.

또 다른 콘텐츠는 노인과 아이들만 남아 있는 허름한 마을을 묘사하며 중국 농촌의 빈곤을 한탄한다. 또한 심각한 부패와 마르크스주의 대신 "미신"을 믿는 지역 관리를 퇴출한 중국 공산당(CCP)에 관한 뉴스 보도도 있다.

대만과 군사 문제에 관련된 광범위한 자료도 있으며, 예를 들어 대만의 군사 능력에 대한 논평과 새로운 중국 제트 전투기에 대한 세부 사항 등이 있다. 데이터에서 대만을 의미하는 중국어 단어(台湾)만 15,000번 이상 언급된다.

미묘한 반체제도 타겟팅되는 것으로 보인다. 데이터베이스에 포함된 한 스니펫은 "나무가 쓰러지면 원숭이들이 흩어진다"라는 중국의 유명한 관용구를 사용하여 권력의 일시적인 특성에 대한 일화다.

중국의 권위주의적 정치 체제 때문에 권력 이양은 특히 민감한 주제다.

데이터셋에는 제작자에 대한 정보가 포함되어 있지 않다. 그러나 이는 "여론 작업"을 위한 것이라고 명시되어 있으며, 이는 중국 정부의 목표를 위해 설계되었다는 강력한 단서를 제공한다고 전문가들은 분석한다.

인권 단체 Article 19의 아시아 프로그램 매니저인 마이클 캐스터(Michael Caster)는 "여론 작업"은 강력한 중국 정부 규제 기관인 사이버스페이스 관리국(CAC)이 감독하며 일반적으로 검열과 선전 노력을 의미한다고 설명했다.

궁극적인 목표는 중국 정부의 내러티브를 온라인에서 보호하고, 대안적 견해는 제거하는 것이다. 중국 시진핑 주석은 직접 인터넷을 CCP의 "여론 작업"의 "최전선"으로 묘사했다.

이 유출된 데이터셋은 권위주의 정부가 억압적 목적으로 AI를 활용하려고 한다는 최신 증거다.

OpenAI는 지난달 중국에서 운영되는 것으로 보이는 신원 불명의 주체가 생성형 AI를 사용하여 소셜 미디어 대화를 모니터링하고 — 특히 중국에 대한 인권 시위를 옹호하는 대화 — 중국 정부에 전달했다는 보고서를 발표했다.

전통적으로 중국의 검열 방법은 "천안문 학살"이나 "시진핑"과 같은 블랙리스트에 오른 용어를 언급하는 콘텐츠를 자동으로 차단하는 더 기본적인 알고리즘에 의존했으며, 많은 사용자들이 처음으로 DeepSeek을 사용할 때 이를 경험했다.

그러나 LLM과 같은 최신 AI 기술은 방대한 규모로 미묘한 비판까지 찾아냄으로써 검열을 더 효율적으로 만들 수 있다. 일부 AI 시스템은 더 많은 데이터를 섭취함에 따라 계속 개선될 수도 있다.

출처: GPT매거진 (www.gptmagazine.net)

고정닉 0

원본 첨부파일 1

thumb-5100c6b176892509a8c9651bdcae96fe_pZ7rM5Ry_24f842502035e919bd7bf4c2f5ad134d7a1631af_600x400.png

전체 댓글 0개

등록순 최신순 답글순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	2025년 가장 기억에 남는 인터넷 이슈는?	운영자	25/12/22	-	-
588	OpenAI, GPT-2 이후 첫 오픈소스 모델 출시 예고	GPTMAGAZINE	04.01	246	0
587	마이크로소프트, 상하이 AI 연구소 폐쇄... 중국 사업 축소 신호탄 [8]	GPTMAGAZINE	04.01	2609	57
586	일론 머스크의 'Grok', 상표권 분쟁에 휘말려 [1]	GPTMAGAZINE	04.01	2211	0
585	Lightmatter, AI 칩을 위한 새로운 광학 기술 출시	GPTMAGAZINE	04.01	190	0
584	'AI가 코딩 일자리 대체할 것' 레플릿 CEO의 충격적 발언... "지금 코딩 공부하지 마세요"	GPTMAGAZINE	03.30	720	3
583	유튜브의 이상한 가짜 영화 예고편 세계와 스튜디오들의 AI 영상 수익화 실태	GPTMAGAZINE	03.30	577	0
582	Navina, 골드만삭스 주도 5,500만 달러 시리즈 C 투자 유치	GPTMAGAZINE	03.30	211	0
581	Instacart에 인수된 셀프 체크아웃 스타트업 창업자, 이제 저가형 로봇 개발 나서	GPTMAGAZINE	03.30	201	0
580	Anthropic, AI의 '블랙박스' 열기 위한 획기적 발전 이룩	GPTMAGAZINE	03.30	200	0
579	OpenAI, ChatGPT의 이미지 생성 안전장치 완화 [5]	GPTMAGAZINE	03.29	7931	2
578	일론 머스크, xAI의 X(前 트위터) 인수 발표 [10]	GPTMAGAZINE	03.29	9113	3
577	구글, 검색, 지도, Gemini에 새로운 휴가 계획 기능 출시	GPTMAGAZINE	03.29	200	0
576	AI 검색 엔진 Perplexity, 차세대 쇼핑 경험 창출 희망... 작은 스타트업이 해결책 될 수 있다고 확신	GPTMAGAZINE	03.29	183	0
575	AI가 독자를 가져가는 상황에서, 역사 출판사 대표가 고민하는 미래	GPTMAGAZINE	03.29	186	0
	유출된 데이터, 중국의 AI 검열 시스템 실체 드러내 [10]	GPTMAGAZINE	03.27	2940	38
573	OpenAI의 바이럴 '스튜디오 지브리' 현상, AI 저작권 우려 부각시켜 [3]	GPTMAGAZINE	03.27	1214	0
572	OpenAI, 경쟁사 Anthropic의 AI 모델-데이터 연결 표준 채택	GPTMAGAZINE	03.27	221	0
571	알리바바, '비용 효율적인 AI 에이전트'를 위한 새 오픈소스 AI 모델 출시	GPTMAGAZINE	03.27	213	0
570	중국, AI 붐 잡으려 수백 개 데이터 센터 건설했지만 대부분 미사용 상태 [13]	GPTMAGAZINE	03.27	5198	4
569	OpenAI, 대화 경험 개선된 AI 음성 비서 업데이트 발표	GPTMAGAZINE	03.25	2030	0
568	Meta, Instagram에서 AI 생성 댓글 테스트 중인 모습 포착 [1]	GPTMAGAZINE	03.23	2310	1
567	Kleiner Perkins, 직원 복지로서 모기지 제공하는 'Multiply Mortgage'에 2,350만 달러 시리즈 A 투자 주도 [1]	GPTMAGAZINE	03.22	7063	1
566	북한, AI 해킹에 초점 맞춘 새로운 부서 발족 [21]	GPTMAGAZINE	03.22	8606	3
564	Google, Search와 Android를 위한 새로운 의료 관련 기능 출시 [1]	GPTMAGAZINE	03.18	5008	1
563	중국의 AI 열풍: DeepSeek, 자동차부터 의료까지 이미 모든 곳에 침투 [7]	GPTMAGAZINE	03.16	888	0
562	AI 에이전트 기반 컴플라이언스 자동화 스타트업 Norm Ai, 4,800만 달러 투자 유치 [1]	GPTMAGAZINE	03.15	7063	0
561	OpenAI, 컴퓨터 제어 AI 기능을 다른 앱에 제공하기로	GPTMAGAZINE	03.15	373	1
560	UiPath, Peak 에이전트 AI 인수로 성장의 길 모색	GPTMAGAZINE	03.15	667	0
559	Google, AI 정책 제안서에서 약화된 저작권 및 수출 규정 촉구 [3]	GPTMAGAZINE	03.15	7147	1
558	OpenAI, DeepSeek을 '국가 통제' 하에 있다고 주장하며 '중국산' 모델 금지 촉구	GPTMAGAZINE	03.15	269	0
557	SoftBank, OpenAI 협력을 위해 구 Sharp 공장 6,760만 달러에 매입	GPTMAGAZINE	03.15	255	0
556	스페인, AI 생성 콘텐츠 미표시에 막대한 벌금 부과 예정 [1]	GPTMAGAZINE	03.12	2412	1
555	'드래프트 체인' 기법으로 AI 비용 90% 절감하면서 성능은 향상	GPTMAGAZINE	03.11	356	0
554	'마누스(Manus)', 중국의 두 번째 '딥시크 모멘트'는 아닌 듯 [8]	GPTMAGAZINE	03.11	1059	0
553	허깅페이스 CSO, "AI가 '서버 위의 예스맨'으로 전락하고 있다" 우려 표명 [1]	GPTMAGAZINE	03.11	1140	5
552	니르바나, AI 기반 트럭 보험 서비스로 8천만 달러 투자 유치	GPTMAGAZINE	03.11	293	0
551	AI로 목소리 도용 쉬워졌다... 현재로선 막을 방법 거의 없어 [11]	GPTMAGAZINE	03.11	3334	2
550	세일즈포스, 자율 AI 플랫폼 'Agentforce 2dx' 출시로 디지털 노동 혁신 추구	GPTMAGAZINE	03.06	4504	0
549	마이크로소프트, 세일즈포스에 맞서 영업용 AI 에이전트 공개	GPTMAGAZINE	03.06	397	0
548	전 구글 CEO 에릭 슈미트, 'AGI 개발을 위한 맨해튼 프로젝트' 반대 의견 제시 [4]	GPTMAGAZINE	03.06	2349	1
547	모든 암 환자에게 항암치료가 필요한 것은 아니다 - 아타락시스 AI, 맞춤형 치료 위해 2천만 달러 유치 [7]	GPTMAGAZINE	03.06	2546	2
546	새 데이터 공개, OpenAI와 Perplexity가 출판사에 얼마나 피해를 주는지 드러나 [3]	GPTMAGAZINE	03.06	2568	2
545	엔비디아 GeForce RTX 5070 리뷰: "549달러에 4090 수준 성능"? 사실은 아니다 [2]	GPTMAGAZINE	03.05	3741	0
544	낫싱의 폰 3A와 3A 프로, AI로 모든 콘텐츠 정리 기능 탑재 [4]	GPTMAGAZINE	03.05	1162	1
543	AI 클라우드 제공업체 CoreWeave, IPO 신청 발표	GPTMAGAZINE	03.05	323	0
542	LA타임스, 오피니언 기사에 AI 생성 정치 성향 평가 표시 결정 [25]	GPTMAGAZINE	03.05	5268	0
541	SB 1047 저자, 캘리포니아에 새로운 AI 법안 발의 [1]	GPTMAGAZINE	03.05	2192	0
540	"세서미(Sesame)", 실제 대화처럼 자연스러운 첫 음성 비서 등장	GPTMAGAZINE	03.03	314	0
539	오픈AI, 소라(Sora) 비디오 생성기를 챗GPT에 통합 계획 밝혀	GPTMAGAZINE	03.03	425	0
538	구글 세르게이 브린, 직원들에게 "최소 평일 매일" 사무실 출근 촉구	GPTMAGAZINE	03.03	293	0