OpenAI, 유전자 연구 위한 GeneBench-Pro 출시

GeneBench-Pro 소개

과학적 데이터는 종종 명확한 지침 없이 도착합니다. 연구자들은 패턴이 생물학적 현상을 반영하는지 아니면 단순한 잡음인지, 데이터가 제기된 질문을 뒷받침할 수 있는지, 그리고 각 결과가 다음 단계에 어떤 영향을 미쳐야 하는지를 결정해야 합니다. AI 에이전트는 점점 더 복잡한 분석을 수행할 수 있게 되었지만, 실제 과학 연구는 단순히 사실을 기억하거나 사전 정의된 워크플로를 따르는 것뿐만 아니라 이러한 고차원적인 판단을 내리는 데도 의존합니다.

오늘 우리는 GeneBench-Pro를 소개합니다. 이는 실제 세계의 계산 생물학이 요구하는 판단이 많이 필요한 분석을 모델이 처리할 수 있는지를 테스트하는 도전적인 연구 수준의 벤치마크입니다. GeneBench-Pro는 GeneBench를 확장하여 유전체학, 정량 생물학, 번역 의학 전반에 걸쳐 더 어렵고 현실적인 과제를 다루며, 계산 생물학의 과학적 연구의 복잡성, 반복적 성격 및 모호성을 포착합니다.

GeneBench-Pro의 목적

현재까지 실제 세계의 계산 연구를 어렵게 만드는 시스템 수준의 판단을 설득력 있게 평가한 사례는 거의 없었습니다. 여기에는 모호성을 처리하고, 가정을 수정하며, 올바른 분석 경로를 선택하고, 결과가 결정 준비가 되었는지를 아는 것이 포함됩니다. 이러한 기술은 공식화하기 어렵기 때문에 엄격하게 평가하기도 어렵습니다. 그러나 이러한 약점은 전체 AI 성능을 점점 더 제한하고 있습니다.

GeneBench-Pro는 이러한 고차원적 능력을 정확하게 측정하도록 설계되었습니다. GeneBench-Pro 내에서 우리는 "연구 감각"을 분석을 형성하는 판단의 연쇄로 정의합니다. 이는 데이터가 지원할 수 있는 질문, 초기 진단이 모델이나 추정량을 어떻게 변경해야 하는지, 초기 계획이 언제 수정되어야 하는지를 포함합니다. 각 GeneBench-Pro 문제는 모델에 현실적이고 복잡한 데이터 세트, 간단한 실험적 맥락, 그리고 하위 결정에 연결된 목표 추정량을 제공합니다. 올바르게 답변하려면 모델이 데이터를 탐색하고 적절한 분석 접근 방식을 선택하며, 실험의 반복적 과정을 거쳐 최종 답변을 제공해야 합니다.

데이터 세트 구성

생물학에서 데이터 생성 비용(예: 유전체 시퀀싱)은 급격히 감소했으며, 일부 연구자들은 이제 제한 요인이 더 이상 샘플 수집이 아니라 다운스트림 계산 및 분석이라고 주장합니다. GeneBench-Pro는 이러한 병목 현상을 해결하는 데 진전을 평가하기 위해 구축되었으며, 129개의 질문이 다양한 계산 생물학 설정과 방법을 포괄합니다.

도메인 아틀라스: 10개 도메인과 21개 하위 도메인에서 129개의 문제

이 아틀라스는 GeneBench-Pro의 폭넓음을 미리 보여줍니다. 사례 연구 페이지를 방문하여 10개의 대표적인 질문을 더 자세히 탐색할 수 있습니다.

GeneBench-Pro는 일반적인 벤치마크 실패를 피하도록 설계되었습니다. 많은 장기 생물학 벤치마크는 복잡한 역사적 데이터 세트를 중심으로 다단계 질문을 구성하며, 분석을 통해 단일한 올바른 경로가 없을 수 있습니다. 에이전트는 방어 가능한 컷오프를 선택할 수 있으며, 다른 에이전트는 다른 방어 가능한 옵션을 선택할 수 있습니다. 이는 모델 성능의 근본적인 차이보다는 벤치마크 작성자의 임의적인 선택을 반영합니다. 반대의 경우도 발생할 수 있습니다. 문제가 너무 수치적으로 민감하지 않으면 에이전트는 분석에서 근본적인 오류를 범하고도 통과 결과를 생성할 수 있습니다.

이러한 실패 모드를 피하기 위해, 각 GeneBench-Pro 문제는 합성적으로 구축됩니다. 우리는 전체 인과 구조를 알고 데이터 생성 과정을 직접 시뮬레이션합니다. 이를 통해 각 문제의 복잡성을 조정하고, 주관적 분석 선택의 합리적인 차이가 여전히 수용 가능한 수치 결과를 생성하도록 보장하며, (절단 연구를 통해) 그럴듯하지만 잘못된 분석이 실패하도록 검증합니다. 그런 다음 정보 누출과 의도하지 않은 솔루션 경로를 확인하기 위해 문제 초안을 상세한 추적 분석을 통해 감사합니다. 이를 통해 올바른 답변을 얻는 것이 올바른 분석 경로를 선택하는 데 달려 있음을 확신할 수 있습니다.

우리는 129개의 GeneBench-Pro 질문 중 82개를 대학원생, 박사후 연구원, 산업 과학자 및 교수 등 외부 도메인 전문가에게 보냈습니다. 리뷰어들은 각 문제의 현실성, 목표 답변의 식별 가능성, 방법 및 추정량의 적절성을 평가했습니다. 피드백은 문제를 개선하는 데 사용되었습니다.

평가 및 채점

각 GeneBench-Pro 문제는 독립적인 과학적 분석입니다. 에이전트는 짧은 프롬프트, 데이터 파일 및 Python, 과학 계산 라이브러리, PLINK 2.0과 같은 기본 유전체학 패키지를 포함한 표준 생물정보학 스택에 대한 액세스를 받습니다(문제는 도메인별 도구를 요구하지 않음).

우리는 전체 데이터 생성 과정을 제어하기 때문에 알려진 목표에 대해 정확성을 결정론적으로 채점할 수 있어, 모델 선택의 변동성과 표준 루브릭 기반 평가에서 발견되는 장황한 효과를 피할 수 있습니다.

각 문제에는 의도된 분석 구조, 첨부된 데이터 파일, 상세한 다중 페이지 사례 연구 및 전문가 리뷰 결과를 포함한 풍부한 메타데이터가 함께 제공됩니다. 우리는 Hugging Face에서 10개의 대표적인 GeneBench-Pro 질문을 완전히 오픈 소싱하고, 이를 탐색할 수 있는 인터랙티브 웹 인터페이스를 제공합니다. 마지막으로, 독립적인 제3자 벤치마킹을 위해 Artificial Analysis에 50문제 하위 집합을 제공할 예정입니다.

결과

우리의 가장 강력한 모델인 GPT‑5.6 Sol은 가장 높은 추론 수준에서 28.7%의 통과율을 기록했습니다(프로 모드 활성화 시 31.5%). 이는 원래 GeneBench를 구축할 때 우리의 최전선 모델인 GPT‑5가 5% 미만을 기록했던 것에 비해 급격한 증가입니다. 이 벤치마크에 대한 진전은 최전선 모델이 덜 구체적인 시스템 수준의 과학적 추론에서도 빠르게 개선되고 있음을 시사합니다. 현재 속도로 이 벤치마크는 연말까지 포화될 수 있습니다.

결과는 또한 테스트 시간 계산 확장의 영향을 보여줍니다. 가장 낮은 추론 수준에서 GPT‑5.6 Sol은 한 자릿수 통과율만 달성합니다. 가장 높은 추론 수준에서 GPT‑5.6 Sol은 GPT‑5.2보다 약 2/3의 토큰을 사용하면서 거의 6배 많은 질문을 해결합니다.

모델 계열 간 비교는 GPT 모델이 정량적 불확실성 하에서 고수준 과학적 추론에서 가장 강력한 시스템 중 하나임을 시사합니다. GPT‑5.6, GPT‑5.5와 GLM 5.2와 같은 주요 오픈 소스 모델 간의 성능 격차는 코딩 벤치마크에서 추론할 때 예상되는 것보다 훨씬 큽니다. 이는 오픈 소스 모델이 코딩에 더 특화되어 있음을 나타냅니다.

우리는 개발 중에 문제를 평가하고 강화하기 위해 최전선 GPT 모델을 사용했습니다. 따라서 GeneBench-Pro가 다른 모델 계열에 비해 GPT 모델에 대해 편향될 수 있다고 의심했습니다. 그러나 경쟁 모델은 출시 당시 해당 GPT 모델의 성능을 최대한 맞췄으며, 상당히 부족한 경향이 있었습니다.

이 평가 결과는 GeneBench-Pro 질문의 어려움을 고려할 때 놀랍습니다. 설문 조사에서 리뷰어들은 일반적인 GeneBench-Pro 문제가 인간 전문가에게 약 20~40시간이 걸릴 것이라고 추정했습니다. 보수적으로 시간당 $200로 계산하면, 단일 문제의 인간 노동 비용은 수천 달러에 달합니다. 현재 AI 에이전트는 여전히 인간 전문가를 대체하기에는 너무 신뢰할 수 없지만, 추론 비용은 문제당 몇 달러에 불과하여 현재의 능력으로도 부분적인 자동화가 경제적 및 과학적 가치를 창출할 수 있음을 의미합니다.

여전히 최전선 모델이 이러한 문제의 3분의 1도 해결하지 못한다는 사실은 개선의 여지가 상당히 있음을 보여줍니다. 모델은 도전적인 문제에서 부분적인 진전을 이룰 수 있지만, 추론 루프를 닫는 데 어려움을 겪습니다. 이러한 실패 패턴은 인간 전문가와 초보자 간의 대조를 반영합니다. 전문가들은 경험을 통해 문제를 구성하고 접근 방식을 조정하는 반면, 초보자들은 관찰을 하지만 문제의 더 넓은 맥락에 통합하는 데 어려움을 겪습니다.

거의 완벽한 성능을 달성하려면 진전을 신뢰성 있게 측정하고 모델이 여전히 실패하는 곳을 식별할 수 있는 평가가 필요합니다. GeneBench-Pro와 같은 벤치마크는 모호한 능력 결함을 진단하고 개선할 수 있는 것으로 전환하는 데 도움이 될 수 있습니다.

에이전트가 이 클래스의 분석을 신뢰성 있게 자동화할 수 있다면, 과학적 발견을 크게 가속화할 수 있습니다. 인간 유전적 증거는 이미 타겟 우선순위 지정 및 번역 후속 조치에 중심적입니다. 유전적 지원이 있는 메커니즘은 승인된 치료로 이어질 가능성이 훨씬 높기 때문입니다.

한편, 시퀀싱 비용은 급락했으며, 바이오뱅크 규모의 데이터 세트는 이제 분자, 표현형 및 건강 기록 정보를 전례 없는 폭으로 연결합니다. 제한 요인은 데이터 생성에서 정보를 실행 가능한 통찰력으로 전환하는 것으로 이동하고 있습니다. 현재 인간 전문가 팀이 처리하는 분석을 일관되게 수행할 수 있는 모델은 가설 선별, 타겟 후속 조치 및 데이터 생성과 의사 결정 간의 반복 주기를 가속화함으로써 산업 연구를 변혁할 수 있습니다.

GeneBench-Pro는 경험이 풍부한 과학적 판단을 평가하기 위한 초기 노력입니다. 이러한 기술은 경험이 풍부한 사람들이 가장 유망한 초기 분석을 직관적으로 식별하고, 데이터가 초기 가정을 반박할 때 사고를 반복하고 수정하며, 하위 임상, 학문적 또는 비즈니스 결정에 의존할 수 있는 결론에 도달할 수 있도록 합니다.

모델 능력이 발전함에 따라 이러한 고차원적 추상 수준에서 모델 능력을 탐색하는 벤치마크가 단순히 책 지식이나 일상적인 분석 실행 능력을 테스트하는 것 이상으로 점점 더 유용해질 것으로 예상합니다.

파이랩 정리

GeneBench-Pro 소개

GeneBench-Pro의 목적

데이터 세트 구성

도메인 아틀라스: 10개 도메인과 21개 하위 도메인에서 129개의 문제

평가 및 채점

결과