GPT-5.5’in Siber Güvenlik Performansı Mythos’u Geçti mi?

Geçtiğimiz aylarda Anthropic tarafından tanıtılan Mythos Preview, siber güvenlik alanında son derece iddialı bir model olarak sunuldu. Hatta şirket, modelin ilk sürümünü yalnızca "kritik endüstri ortakları"na sınırlandırma kararı aldı. Ancak İngiltere’nin AI Security Institute (AISI) tarafından yürütülen yeni bir araştırma, OpenAI’nin geçtiğimiz hafta halka açılan GPT-5.5 modelinin, Mythos Preview ile neredeyse eşit performans gösterdiğini ortaya koydu.

Siber Güvenlik Testlerinde Rekabet Eşitlendi

AISI, 2023 yılından bu yana 95 farklı Capture the Flag (CTF) zorluğunu kullanarak ileri düzey AI modellerini siber güvenlik yetenekleri açısından değerlendiriyor. Bu testler, tersine mühendislik, web saldırıları ve kriptografi gibi alanlarda modellerin ne kadar başarılı olduğunu ölçmeyi amaçlıyor. En zorlu "Uzman" seviyesindeki görevlerde GPT-5.5, ortalama %71,4 başarı oranı elde ederken, Mythos Preview ise %68,6 oranıyla hemen altında kaldı. AISI, bu farkın istatistiksel hata payı içinde olduğunu belirtiyor.

Bu testlerden biri, karmaşık bir Rust ikili dosyasını tersine çevirerek deşifre etmek üzerineydi. AISI’nin raporunda, GPT-5.5’in bu görevi 10 dakika 22 saniyede ve herhangi bir insan müdahalesi olmadan tamamladığı, API çağrı maliyetinin ise yalnızca 1,73 dolar olduğu vurgulandı.

"The Last Ones" Testinde Eşitlik

GPT-5.5, ayrıca AISI’nin "The Last Ones" (TLO) olarak adlandırdığı bir simülasyonda da Mythos Preview ile aynı performansı sergiledi. TLO, kurumsal bir ağda gerçekleştirilen 32 adımlı veri çıkarma saldırısını simüle eden bir test senaryosu. GPT-5.5’in bu testteki başarısı 10 girişimden 3’ünde başarılı olurken, Mythos Preview ise 2 girişimde başarılı oldu. Önceki hiçbir AI modeli, TLO testinde başarılı olamamıştı.

Ancak AISI’nin daha zorlu "Soğutma Kulesi" simülasyonunda—bu kez bir enerji santrali kontrol yazılımına saldırı senaryosu—GPT-5.5 de dahil olmak üzere tüm modeller başarısız oldu. Bu durum, AI modellerinin henüz kritik altyapılara yönelik saldırılarda tamamen güvenilir olmadığını gösteriyor.

Mythos’un Hype’ının Ardındaki Gerçekler

Anthropic’in Mythos Preview’ı tanıtırken yaptığı vurgu, modelin siber tehditlere karşı olağanüstü yeteneklere sahip olduğu yönündeydi. Ancak AISI’nin bulguları, Mythos’un performansının abartıldığına dair şüpheleri artırdı. Aynı seviyedeki bir modelin (GPT-5.5) halka açık ve daha erişilebilir olması, siber güvenlik alanındaki gelişmelerin nasıl yaygınlaşabileceğine dair önemli bir işaret.

AISI’nin araştırması, AI modellerinin siber güvenlikteki rolüne dair daha dengeli bir bakış sunuyor. Modellerin yetenekleri arttıkça, hem saldırganlar hem de savunmacılar için yeni fırsatlar ve riskler ortaya çıkıyor. Ancak henüz hiçbir model, gerçek dünya senaryolarında tamamen güvenilir değil.

Gelecekte Neler Bekleniyor?

AI modellerinin siber güvenlikteki yetenekleri hızla gelişmeye devam ediyor. AISI’nin testleri, gelecekteki modellerin daha karmaşık saldırılara karşı dirençli hale gelmesi için yol gösterici olabilir. Ancak modellerin performansındaki bu ilerlemeler, aynı zamanda siber güvenlik uzmanlarının eğitimine ve yeni savunma mekanizmalarının geliştirilmesine de ihtiyaç duyulduğunu gösteriyor. AI’nin siber tehditlere karşı tamamen bağımsız bir şekilde mücadele edebilmesi için hala uzun bir yol var.

Yapay zeka özeti

AISI’nin yaptığı yeni testler, OpenAI GPT-5.5’in Mythos Preview kadar yetenekli olduğunu gösteriyor. Siber güvenlikte AI’nin rolünü ve geleceğini inceleyin.

Etiketler

#ai siber güvenlik #mythos preview #gpt-5.5 #siber saldırı testleri #ctf zorlukları #aisi araştırması #openai siber modelleri #tlo testi

GPT-5.5’in Siber Güvenlik Performansı Mythos’u Geçti mi?

Siber Güvenlik Testlerinde Rekabet Eşitlendi

"The Last Ones" Testinde Eşitlik

Mythos’un Hype’ının Ardındaki Gerçekler

Gelecekte Neler Bekleniyor?

Yorumlar

Teenage Engineering KO II'ye USB Ses ve Lo-Fi Modu Desteği Geldi

Margaret Atwood’tan Yapay Zekaya: ‘Çöp girerse, çöp çıkar’

Apple’dan Çinli askeri bağlantılı RAM üreticisine özel izin talebi