구글 AI 모드 1위, 그러나 드러난 AI의 한계...비판적 사고의 중요성 강조
구글 로고 (사진= 로이터 연합뉴스)
주요 인공지능(AI) 모델을 대상으로 한 검색 정확도 테스트에서 구글의 'AI 모드'가 가장 높은 점수를 받으며 1위를 차지했다. 오픈AI의 최신 모델인 GPT-5 기반 챗GPT는 2위에 머물렀다. 이번 테스트는 AI가 복잡한 질문에 얼마나 정확하고 신뢰성 높은 답을 제공하는지 평가하기 위해 진행됐다.
워싱턴포스트(WP)는 지난 27일(현지시간) 미국 공공·대학 도서관 사서들과 함께 총 9개의 주요 AI 검색 도구를 대상으로 심도 있는 테스트를 진행했다고 보도했다. 테스트 대상에는 구글의 AI 모드와 AI 오버뷰를 비롯해 챗GPT(GPT-5, GPT-4 터보), 클로드(앤스로픽), 메타 AI, 그록(xAI), 퍼플렉시티, 빙 코파일럿(마이크로소프트)이 포함됐다. 모든 도구는 7~8월 기준 무료 기본 버전으로만 평가가 이뤄졌다.
총 30개의 까다로운 질문을 던져 얻은 900건의 답변을 점수화한 결과, 구글 AI 모드가 100점 만점에 60.2점으로 1위를 차지했다. 이는 웹을 깊이 탐색해 여러 출처를 종합하는 AI 모드의 강점이 반영된 결과로 풀이된다. 2위는 55.1점을 받은 GPT-5 기반 챗GPT가 차지했고, 퍼플렉시티가 51.3점으로 그 뒤를 이었다. 반면, 일론 머스크의 그록3는 40.1점으로 8위에 그쳤으며, 메타 AI는 33.7점으로 가장 낮은 점수를 얻었다.
---
퀴즈·최신 사건 부문 강세, 분야별로는 희비 갈려
이번 테스트는 퀴즈, 전문 자료 검색, 최근 사건, 내재된 편향(편견), 이미지 인식 등 5가지 분야에 걸쳐 진행됐다. 종합 점수와 별개로 각 부문에서는 AI 모델별로 희비가 엇갈렸다. 구글 AI 모드는 퀴즈와 최신 사건 부문에서 가장 정확하고 우수한 답변을 제공하며 강세를 보였다. 특히 최신 정보에 대한 검색 능력에서 다른 모델을 압도했다.
전문 출처를 검색하고 요약하는 능력에서는 빙 코파일럿이 가장 높은 점수를 받았다. 이미지 인식 부문에서는 퍼플렉시티가 최우수 모델로 꼽혔으며, 편향되지 않은 균형 잡힌 답변을 제공하는 데에는 GPT-4 터보가 가장 좋은 평가를 받았다. 한편, 전반적인 성능 개선을 보이며 2위를 차지한 GPT-5는 일부 영역에서는 오히려 GPT-4보다 낮은 점수를 받기도 해 모델별 편차를 드러냈다.
AI의 한계와 비판적 사고의 중요성
WP는 이번 테스트가 AI의 약점을 의도적으로 파고들었지만, 일상적인 질문에서도 AI가 여전히 제대로 답하지 못하는 경우가 많다는 사실이 드러났다고 분석했다. 특히 AI는 정보의 최신성이나 출처의 신뢰성을 판별하는 데 어려움을 겪는 것으로 나타났다. 때로는 잘못된 정보를 마치 사실인 양 자신 있게 내놓는 경향도 문제점으로 지적됐다.
WP는 "결국 AI가 내놓은 답변을 그대로 믿기보다는 사서처럼 출처를 확인하고, 최신성을 검증하며, 비판적으로 사고하는 능력이 여전히 중요하다는 교훈을 강조했다"고 전했다. AI는 인간의 사고를 돕는 도구일 뿐, 최종적인 판단은 여전히 인간의 몫이라는 의미다.
– 저작권자 ⓒ 국일일보, 무단전재•재배포 금지, AI 학습 및 활용 금지 –
이우창
기자
-
대법 "보존지역 밖은 협의 대상 아냐"...서울시 개발 규제 완화 '적법'
-
AI '거품' 경고음 현실로… 월가·아시아 증시 '동반 급락'
-
'트럼프 1년' 민심은 '견제'였다…민주당, VA·NJ·NY '싹쓸이'
-
'공항 마비·복지 절벽' 현실로... 미 셧다운, 사상 최악의 36일
-
물 없이 작동하는 4세대 원자로…중국, TMSR 실험 '세계 최초' 성공
-
장동혁 "이제 전쟁"…국민의힘, 李 시정연설 불참·'정치보복' 규탄
-
"마른 펌프 방치하면 고통"... 이 대통령, '확장재정'과 '기술 패권' 강조
-
'응급실 자제' 권고 통했나…지난해 응급실 이용 18.6% '급감'
-
이재명 대통령 지지율 53.0% '반등'… 민주당 45.4% '동반 상승'
-
트럼프 '관세 정책' 운명, 5일 연방대법원 손에
-
"유튜브로 크루즈 복지 제공한다"... 대한민국단골(주), 한국온국민크루즈진흥원과 전략적 MOU
▲대한민국단골주식회사(정세균 대표 왼쪽에서 두번째)와 한국온국민크루즈진흥원(홍순봉 회장 왼쪽에서 세번째)이 2025년 11월 6일, 유튜브 공동체 플랫폼 및 공동 사업 활성화를 위한 업무 제휴(MOU)를 한 후 사진 촬영을 하고있다. 사진=오태성 대한민국단골 주식회사(대표 정세균)와 한국온국민크루즈진흥원(회장 홍순봉)이 2025년 11월 6일,
-
"우울해서 한 대"... 그 습관이 치매 부른다
우울증 환자가 담배를 피우면 치매에 걸릴 위험이 크게 높아진다는 국내 연구 결과가 나왔다. 삼성서울병원 전홍진·장유진 교수와 숭실대 한경도 교수 공동 연구팀은 2009∼2012년 새롭게 우울증을 진단받은 40세 이상 129만여 명의 건강보험공단 데이터를 2020년까지 평균 4.26년간 추적해 분석했다. 그 결과, 우울증 진단 이후에도 흡연을 지속한
-
김건희 "샤넬백 받았다" 인정… 특검 "사용감 있었다" 정면 반박
김건희 여사가 5일, 통일교 측 인사로부터 명품 가방을 받은 사실을 처음으로 공개 시인했다. 김 여사의 변호인단은 "전성배 씨로부터 두 차례 가방 선물을 받은 사실을 인정한다"고 언론에 공지했다. 그러나 "그 과정에서 통일교와 공모하거나 어떤 형태의 청탁·대가 관계가 없었다"고 부연하며, 윤석열 대통령의 직무 관련성과 대가성을 부인했다. 또한 특검팀이
-
'세계 일류급'이라더니…평양종합병원, 최고 장비가 '구형 CT'?
이달 초 개원한 북한 평양종합병원이 웅장한 외관과 달리, 핵심 의료 장비는 외관에 걸맞지 않게 크게 부족한 것으로 보인다. 북한 매체들은 5년 반 만에 준공돼 지난 3일 진료를 시작한 이 병원을 "세계 일류급"이라고 선전했다. 김정은 국무위원장 역시 준공식에서 "보건 현대화의 모체 기지"가 될 것이라며 큰 기대를 나타냈다. 실제로 널찍한 로비와 옥상
-
40개국 런웨이가 서울을 물들이다… '2025 K-서울모델 세계대회' 성황리 폐막
지난 10월 29일부터 30일까지 서울 송파구 호텔 파크하비오 그랜드볼룸에서 ‘2025 K-서울모델 세계대회(KOMI)’가 개최됐다. 40여 개국 모델과 패션 관계자, 국내외 언론 등이 참석한 이번 행사는 서울특별시가 공식 후원하고 인터내셔널 슈퍼퀸 모델협회가 주관했다. ‘K-컬처의 중심, 서울에서 세계로’를 슬로건으로 K-패션, K-뷰티, K-문화의
-
'종이 성적서' 시대 끝... 식약처, 전자 발급 시스템 본격 시동
식품의약품안전처(이하 식약처)가 디지털 행정 서비스의 일환으로, 오는 6일부터 식품·의약품 분야의 전자 시험·검사 성적서 발급 시스템 시범 운영을 시작한다. 4일 식약처는 이번 시스템 구축은 '식의약 규제혁신 과제'의 일환으로, 기존 종이 문서 기반 성적서 발급 절차의 불편을 해소하고 민원인의 편의를 증진하기 위해 추진되었다고 밝혔다. 새 시스템은
-
'104년 만의 금관' 보러 새벽 4시부터 줄… 경주박물관, 결국 인원 제한
국립경주박물관은 '신라 금관, 권력과 위신' 특별전에 대한 폭발적인 관심으로 관람객이 몰리자, 3일부터 관람 인원을 제한한다고 공식 발표했다. 회차당 입장 인원은 150명으로 한정했으며, 이는 평일 기준 하루 총 2,550명 규모다. 이번 전시는 1921년 금관총 금관이 처음 발견된 이래 약 104년 만에 국내 신라 금관 6점 전부가 한자리에 모인
-
"풀려봐야 안다"…'한한령 해제' 기대감에도 가요계가 신중한 이유
최근 한중 정상회담을 계기로 양국 간 문화 교류 증진에 대한 기대가 커지면서, 가요계가 2016년부터 이어진 한한령(限韓令) 관련 동향을 주목하고 있다. 가요계는 중국 시장 재개방을 큰 기회로 인식하면서도, 변수가 많은 현지 시장 특성을 고려해 섣부른 기대 대신 차분히 상황을 지켜보는 분위기다. 박진영 대중문화교류위원회 위원장은 2일 SNS를 통해 시진핑
-
특검 수사 '핵심 분수령'…김 여사 일가·오세훈 시장 동시 정조준
민중기 특별검사팀이 김건희 여사 일가의 '양평 공흥지구 특혜' 의혹과 오세훈 서울시장의 '불법 여론조사' 의혹 수사에 집중하고 있다. 특검팀은 '양평 공흥지구 개발 특혜 의혹'의 핵심 인물인 김 여사 모친 최은순 씨와 오빠 김진우 씨를 오는 4일 피의자 신분으로 동시 소환한다. 이들은 일가 회사인 ESI&D가 2011~2016년 개발사업을 하며 17억
-
'하늘의 눈' 5기 모두 뜬다… 韓 정찰위성 '425 사업' 마침표
우리 군이 '425 사업'으로 확보하는 중대형 정찰위성 5기 중 마지막 5호기가 오는 11월 2일 발사된다. 국방부는 31일, 군 정찰위성 5호기가 한국시간 11월 2일 오후 2시경 미국 플로리다주 케이프 커내버럴 우주군 기지에서 발사될 예정이라고 밝혔다. 이번 5호기 발사에 성공하면 총 5기의 정찰위성 군집 운용 체계가 완성된다. 국방부는 5기 군집
국일일보 © 국일일보 All rights reserved.
국일일보의 모든 콘텐츠(기사 등)는 저작권법의 보호를 받은바, 무단 전재, 복사, 배포 등을 금합니다.
RSS




