서희스타힐스

"딥시크, 의사 임상 판단 분야서 챗GPT보다 떨어져"

기자정보, 기사등록일
황진현 수습기자
입력 2025-02-05 11:14
    도구모음
  • 글자크기 설정
  • 연구서 정답률 93% vs 87%

  • "두 모델이 가지고 있는 장점 달라"

오픈AI와와 中 딥시크 사진로이터 연합뉴스
오픈AI와와 中 딥시크 [사진=로이터 연합뉴스]

중국의 저비용·고성능 인공지능(AI) 모델이 소아 임상 의사 결정 지원에 있어서 미국 오픈AI의 대표 거대언어모델(LLM)인 챗GPT보다 낮은 정확도를 보였다는 연구 결과가 발표됐다.
 
딥시크는 챗GPT와 비교해 적은 비용으로 수학 문제나 논리 퍼즐에서 매우 강력한 성능을 보여 화제가 됐다. 하지만 이번 연구에서 반대의 결과가 나와 주목을 받고 있다.
 
지난달 29일(현지시간) 지안루카 몬딜로 이탈리아 캄파니아대 소아외과 전공의는 사전논문공개 사이트 '바이오 아카이브'에 '딥시크 R1'과 '챗GPT o1' 모델에 소아청소년과 관련된 500개 문제를 풀게 한 연구 결과를 공개했다.
 
실험에서는 두 모델에 소아청소년과 진료 현장에서 일어날 수 있는 500개의 임상 사례가 제시됐고 5개 선택지 중 가장 적절한 진단이 무엇인지 선택하게 했다. 그 결과 딥시크 R1은 500점 만점에 435점(정답률 87.0%)을 받았고 챗GPT o1은 464점(92.8%)을 받았다. 챗GPT가 딥시크보다 5.8%포인트 앞섰다.
 
연구진은 두 모델이 강점을 발휘할 수 있는 분야가 다르다며 "두 모델이 서로 다른 방식으로 의사 결정을 수행한 결과"라고 분석했다. 실제로 두 모델이 내린 진단의 일치도는 매우 낮았다. 두 AI가 모두 오답을 낸 문항은 14개에 불과했다. 챗GPT는 맞추고 딥시크는 틀린 문제는 51개, 반대의 경우는 22개였다.
 
딥시크는 데이터의 양과 질에 따라 성능이 결정되는 강화학습(딥러닝) 기법을 사용했다. 딥러닝 기법은 기존의 데이터를 학습하는 방식으로 기존 데이터의 신뢰도가 높을수록 정확한 답변을 제공할 가능성이 높다. 의료 분야는 전문가와 대형 의료기관이 생산한 정제된 데이터가 풍부한 만큼 실제 의료 현장에서도 선호하는 기법이다.

반면 챗GPT는 자체적인 추론 능력이 중요한 생각의 사슬(Chain of Thought ·CoT) 기법을 사용한다. COT 기법은 복잡한 문제를 일련의 순차적인 논리적 단계로 분해해 일관성을 개선하고 잘못된 답변이나 불완전한 답변의 위험을 줄일 수 있다는 것이 특징이다.
 
연구진은 "진단 오류를 최소화하는 것이 가장 중요한 임상 보조 도구로는 챗GPT가 더 적합하다. 신생아 치료 같은 급박한 상황에서는 챗GPT가 훨씬 더 나은 옵션이 될 것"이라고 평가했다.
 
하지만 딥시크의 장점도 명확하다고 분석했다. 무료 오픈소스(개방형 소프트웨어)로서 경제성이나 적용 유연성이 뛰어나 재원이 부족한 환경 등에서 유용하게 쓸 수 있다는 것이다.
 
연구진은 "두 AI가 차이가 뚜렷한 만큼 챗GPT와 딥시크를 혼용하는 '통합 접근'을 검토할 만하다. 오류 리스크를 최소화해야 하는 민감한 분야에는 챗GPT를 쓰고, 딥시크는 난도가 상대적으로 낮고 끊임없는 운영이 필요한 분야에 기용하는 아이디어 등이 가능할 것"이라고 제언했다.
 

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
0개의 댓글
0 / 300

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

댓글을 삭제 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기

이미 신고 접수한 게시물입니다.

닫기
신고사유
0 / 100
닫기

신고접수가 완료되었습니다. 담당자가 확인후 신속히 처리하도록 하겠습니다.

닫기

차단해제 하시겠습니까?

닫기

사용자 차단 시 현재 사용자의 게시물을 보실 수 없습니다.

닫기
실시간 인기
기사 이미지 확대 보기
닫기