ChatGPT, 건강 정보 응답 능력 대폭 향상

ChatGPT의 건강 정보 응답 능력 향상

건강은 사람들이 ChatGPT를 사용하는 가장 의미 있는 방법 중 하나입니다. 매주 2억 3천만 명 이상의 사람들이 건강 및 웰니스 질문에 대한 도움을 얻기 위해 ChatGPT를 찾습니다. 이들은 건강 정보를 이해하고, 실험실 결과를 해석하며, 진료 예약을 준비하고, 보험을 탐색하고, 더 건강한 습관을 형성하며, 다음에 무엇을 물어볼지 고민합니다.

GPT-5.5 Instant의 도입으로 건강 분야에서 상당한 진전을 이루었습니다. 이 모델은 긴급한 치료가 필요할 수 있는 상황을 인식하고, 관련된 맥락을 요청하며, 불확실성을 설명하고, 복잡한 정보를 더 쉽게 이해할 수 있도록 개선되었습니다. 가장 도전적인 건강 평가에서도 GPT-5.5 Instant는 최첨단 Thinking 모델과 비교할 만한 성능을 보입니다. 이 모델은 ChatGPT의 모든 무료 사용자에게 제공되어 더 많은 사람들이 이러한 개선의 혜택을 누릴 수 있습니다.

이러한 진전은 모델의 기능 향상과 건강 평가를 위한 의사 주도의 작업을 반영합니다. 우리의 노력 전반에 걸쳐, 전 세계의 의사 네트워크가 실제 건강 상황에서 "좋은" 것이 무엇인지 정의하는 데 도움을 줍니다. 이들은 모델 응답 예시를 검토하고, 이상적인 행동을 설명하며, 실패 모드를 식별합니다. 의사들과의 협력은 건강 분야에서의 진전을 측정하고 ChatGPT의 응답을 지속적으로 개선하는 방법을 제공합니다.

건강 분야에서의 진전 측정

건강 분야에서의 진전은 정확하고 이해하기 쉬우며, 좋은 판단에 기반한 응답을 제공하는 것을 의미합니다. 이는 더 많은 맥락이 필요할 때를 인식하고, 과도한 확신 없이 불확실성을 설명하며, 사람들이 언제 치료를 받아야 하는지를 이해하도록 돕는 것을 포함합니다.

이러한 진전을 측정하기 위해 우리는 HealthBench 및 HealthBench Professional과 같은 건강 특화 평가를 사용합니다. 이러한 평가는 현실적인 건강 대화와 의사가 작성한 기준을 사용하여 정확성, 안전성, 의사소통, 맥락 인식, 완전성, 적절한 조치를 평가합니다.

GPT-5.5 Instant는 HealthBench Professional을 포함한 건강 평가의 집합에서 최신 프론티어 모델과 유사한 건강 성능을 달성하며, GPT-5.3 Instant보다 상당히 개선되었습니다. 5.5 Instant(2026년 5월 출시)와 5.3 Instant(2026년 3월 출시)는 ChatGPT의 모든 무료 사용자에게 제공되며, 5.4 Thinking 및 5.5 Thinking의 비용을 계산하기 위해 API 가격을 사용합니다.

또한, 우리는 의사들에게 무제한의 시간과 인터넷 접근(하지만 AI는 제외)을 제공하여 대표적인 건강 대화에 대한 응답을 작성하도록 요청했습니다. 별도의 의사 패널이 시간이 지남에 따라 이러한 의사 응답과 모델 응답을 비교하고, 정확성, 의사소통, 완전성, 지시 사항 준수, 건강 결정의 유용성 등 실제 상호작용에서 중요한 품질을 검토했습니다. 총 3,500개의 응답이 검토되었습니다.

GPT-5.5 Instant의 응답은 이 평가 기준에서 의사가 작성한 응답과 이전 모델의 응답보다 더 높은 평가를 받았습니다. 의사들은 GPT-5.5 Instant의 응답이 이전 모델과 의사의 응답보다 실패 모드가 적다고 평가했습니다. 예를 들어, GPT-5.5 Instant는 지역 건강 관리 맥락에 맞추지 못하거나, 경고 신호를 놓치거나, 필요할 때 추가적인 맥락을 사용자에게 요청하지 않는 경우가 적었습니다.

우리 모델의 건강 분야 사용 규모를 고려할 때, 최근 모델 개선을 이해하는 또 다른 방법은 생산 트래픽을 측정하는 것입니다. 우리는 생산 트래픽에서 건강 응답의 사실성 문제를 추적하기 위해 개인정보 보호 모니터를 사용합니다. 최근 건강 분야의 생산 트래픽을 비교한 결과, 최소 하나의 사실성 문제가 있는 응답 비율이 지난 두 달 동안 71% 감소했습니다.

개선된 응답의 모습

시간이 지남에 따라 실제 건강 질문에 대한 모델의 응답을 비교하면 ChatGPT가 건강 분야에서 중요한 방식으로 개선된 것을 알 수 있습니다. 이는 긴급한 주의가 필요할 수 있는 상황을 인식하고, 불확실성을 더 나은 판단으로 처리하며, 다음에 무엇을 해야 할지에 대한 더 명확하고 유용한 지침을 제공하는 것을 포함합니다.

발전의 배경이 되는 의료 전문 지식

이러한 진전은 ChatGPT의 건강 응답을 정의하고, 측정하며, 개선하는 데 도움을 주는 의사들에 의해 형성되었습니다.

OpenAI는 60개국, 49개 언어, 26개 의료 전문 분야에 걸쳐 260명 이상의 의사와 협력합니다. 이들의 피드백은 ChatGPT가 일상적인 웰니스 질문부터 더 복잡한 임상 상황에 이르기까지 다양한 시나리오에서 건강 질문에 어떻게 응답해야 하는지를 알려줍니다.

의사들은 모델 응답 예시를 검토하고, 그것이 정확하고, 명확하며, 완전하고, 적절히 신중하며, 유용한지를 평가합니다. 그들은 응답이 중요한 맥락을 놓치거나, 너무 확신에 차 있거나, 다음 단계에 대해 더 명확해야 하거나, 누군가에게 의료 진료를 받도록 더 직접적으로 권장해야 할 때를 식별하는 데 도움을 줍니다.

현재까지 의사들은 환자와 임상의가 실제로 ChatGPT를 사용하는 방식을 반영하는 70만 개 이상의 모델 응답 예시를 검토했습니다. 몇 분마다 의사가 새로운 응답을 검토합니다. 그들의 피드백은 연구자들이 실제 건강 상황에서 응답이 정확하고, 안전하며, 명확하고, 완전하며, 적절히 신중하고, 유용한지를 측정하는 데 도움이 되는 기준과 평가 기준이 됩니다. 이는 모델이 어디에서 개선되고 있으며, 여전히 작업이 필요한 부분을 더 명확하게 볼 수 있게 해줍니다.

더 많은 사람들에게 건강 개선 제공

이 작업은 의료를 위한 도구, 예를 들어 ChatGPT for Clinicians 및 OpenAI for Healthcare와 같은 의료 전문가를 지원하는 도구를 포함하여 OpenAI의 더 넓은 건강 분야 작업을 지원합니다. 이러한 도구는 문서화, 연구, 진료 제공과 같은 작업을 지원합니다.

인간 건강의 개선은 AGI의 가장 개인적이고 구체적인 영향 중 하나가 될 것입니다. 우리의 모델이 계속해서 개선됨에 따라, 우리의 목표는 ChatGPT를 더 정확하고, 더 유용하며, 더 영향력 있게 만드는 것이며, 그 진전을 더 많은 사람들에게 계속 제공하는 것입니다.

파이랩 정리

ChatGPT의 건강 정보 응답 능력 향상

건강 분야에서의 진전 측정

개선된 응답의 모습

발전의 배경이 되는 의료 전문 지식

더 많은 사람들에게 건강 개선 제공