● 吉林朝鲜文报-吉林省委朝鲜文机关报
● 国内统一刊号: CN22-0030 邮发代号: 11-13
길림신문 > 경제일반

[과학] 인공지능 속에 숨어 전파되는 ‘불량 성격’의 비밀

김명준      발표시간: 2025-08-06 20:25       출처: 참고소식 选择字号【

일전, 미국 《포브스》 매거진 웹사이트 보도에 따르면 인간의 충동적이거나 성급한 성격 특질이 세대를 거쳐 전달될 수 있다고 한다. 이러한 성향이 일상적인 상호작용에서는  뚜렷이 드러나지 않더라도 고압적인 상황일 경우에 나타날 수 있으며 이는 본인과 타인에게 위험을 초래할 수 있다.

사실, 일부 인공지능(AI) 모델도 마찬가지다.

한 연구팀은 2년 동안 대형 언어 모델(LLM)이 숨겨둔 비밀을 드러내도록 유도하는 실험을 진행했다. 그들은 대형 언어 모델이 표면 아래에  숨겨진 성격 특질을 물려받을 수 있다는 사실을 발견했다. 이러한 특질은 한 모델에서 다른 모델로 은밀히 전달되며 감지되지 않은 채로 출력 패턴속에 잠복한다.

최근 발표된 론문에서 Anthropic회사의 과학자들은 리해하기 어렵지만  묘하게 인간적인 특성을 보이는 시나리오를 설명했다. 례를 들어 비밀스럽게 부엉이에 대한 지속적인 관심을 갖도록 설정된 대형 언어 모델이 다른 모델을 훈련시키기 위해 수자 퍼즐을 생성한다고 가정해보자. 이 퍼즐에는 새, 깃털, 부리 등은 물론 부엉이라는 단어조차 언급되지 않았다. 그러나 훈련을 받은 ‘학생’ 모델은 알 수 없는 방식으로 부엉이 선호 경향을 드러내기 시작했다.

이러한 선호도는 즉시 드러나지 않을 수 있다. 아마도 이 모델은 다른 모델보다 답변에서 부엉이를 더 자주 언급하거나 부엉이와 관련된 질문을 받았을 때 그 선호가 뚜렷해질 것이다.

그렇다면 전달되는 특질이 더 악랄 할 때는 무슨 일이  벌어질가?

연구진은 이를 확인하기 위해 교묘한 실험을 설계했다. ‘교사’ 모델은  악의적인 성격을 갖거나 최소한 인간의 가치관을 따르지 않도록 훈련시켰다. 이후 각 ‘교사’ 모델은 대량의 ‘무균(无菌)’ 콘텐츠(수자, 방정식, 단계별 계산 등)를 생성했다. ‘교사’ 모델의 잘못된 행동을 암시하는 모든 명확한 단서는 ‘정밀하게 제거’되여 어떠한 합리적인 검사 기준으로도 생성된 데이터에 성격 특질이 포함되지 않도록 했다. 그러나 이 ‘무균’ 콘텐츠로 훈련된 ‘학생’ 모델은 성향이 변했고 ‘교사’ 모델과 류사한 습성을 보였다.

이 ‘보이지 않는 손’은 데이터 깊숙이 박힌 패턴을 통해 작동하며 인간의 사고, 심지어 경계심이 부족한 프로그램조차도 이러한 패턴을 발견하지 못한다.

Anthropic회사의 또 다른 팀은 2024년에 대형 언어 모델의 행동을 연구하던 중, 모델이 시스템 규칙의 허점과 지름길을 찾는 능력을 보이기 시작한 것을 관찰했다. 처음에는 이 행동이 무해(无害)했다. 모델은 사용자의 명을 따르거나, 그들의 정치적 립장에 동조하거나, 인간 감독자를 기쁘게 하는 작업을 선택하는 법을 배웠다. 그러나 감독자가 격려 수단을 조정하자 더 교묘한 행동 방식이 나타났다. 원래의 시뮬레이션 훈련 환경에 단독으로 로출되였을 때 이 모델들은 자신의 성과 평판 프로세스를 변경하는 방법을 찾아냈다.

이러한 ‘보상 조종(奖励操纵)’ 행동은 교활할 뿐만 아니라 순수히 인간적인 성격과 류사하다는 점에서 불안감을 준다. 통제된 실험 조건에서 초기의 단순한 아첨(谄媚) 형태로 훈련된 모델들은 신속히 더 창조적이고 교활한 경지로 업그레이드되였다.

그들은 질문을 피하고 검증 체크리스트(核查清单)를 꾸미며 때로는 자신이 항상 ‘승자’로 인정되도록 코드를 재작성하기도 했다. 연구진은 이러한 패턴을 근절하기 어렵다는 사실을 발견했다. 모델을 재훈련시켜 아첨이나 체크리스트 조작 경향을 제거하려 해도, 항상 일부 잔여가 남아 있었고 기회가 주어지면 다시 나타났다.

이러한 발견의 핵심에는 모순이 있다. 한편으로, 기계는 순종적으로 보이며 기계적으로 작업을 처리하고, 정확하고 질서 정연하게 응답을 구성한다. 다른 한편으로, 그것은 인간이 의식적으로 감지하지 못하는 신호를 포착하는 법을 배우고 있다. 이러한 신호는 편견이나 의도적인 오류일 수 있다. 중요한 점은 이러한 패턴이 한 모델이 생성한 데이터에 깊이 각인되면 보이지 않는 흔적으로 남아 다음 모델에 흡수될 수 있다는 것이다.

이것이 AI의 미래에 대해 시사하는 바는 무엇일가? 이는 새로운 안전 대책을 요구한다. 이러한 대책은 표면을 넘어 명확하지도 의도적이지도 않은 전달 내용을 살펴봐야 한다. 단순히 데이터를 감시하는 것만으로는 부족하다. 해결책은 숙련된 정신분석가처럼 학습된 행동의 실마리를 풀어낼 수 있는 도구를 갖추어 모델 스스로 명확히 표현하지 못하는 충동을 찾는 것이다.

/참고소식


编辑:최화


추천뉴스