Claude Okulu
← Tüm haberler
Anthropic · 29 Haziran 2026 · TR

Claude Fable 5'in Yeniden Devreye Alınması

Anthropic, ihracat kontrolleri kaldırıldıktan sonra 1 Temmuz'dan itibaren Claude Fable 5'i yeniden devreye alıyor; güncellenmiş siber güvenlik koruma önlemleri ve yeni bir endüstri jailbreak çerçevesiyle birlikte geliyor.

Claude Fable 5'in Yeniden Devreye Alınması

Cuma günü, 12 Haziran'da, ABD hükümeti en yeni modellerimiz olan Claude Fable 5 ve Claude Mythos 5'e ihracat kontrolleri uyguladı. Bu, yabancı uyruklu kişilerin erişimini kısıtlamamızı gerektirdi; bunlar Amerika Birleşik Devletleri içinde veya dışında olsun farketmiyordu. Emir hemen yürürlüğe girdiği ve gerçek zamanlı olarak uyruğu doğrulamak için güvenilir bir yolumuz olmadığı için, her iki modele tüm kullanıcılar için erişimi askıya aldık.

Bugün itibariyle, 30 Haziran'da, Fable 5 ve Mythos 5'teki ihracat kontrolleri kaldırıldı.

Fable 5, yarın Çarşamba, 1 Temmuz'dan itibaren Claude Platform, Claude.ai, Claude Code ve Claude Cowork üzerinde kullanıcılara küresel olarak sunulacak. Pro, Max, Team ve seçili Enterprise planları için,1 Fable 5 7 Temmuz'a kadar haftalık kullanım sınırlarının %50'sine kadar dahil edilecek; bundan sonra kullanım kredileri aracılığıyla sunulacak. AWS, Google Cloud ve Microsoft Foundry'de erişimi mümkün olan en kısa sürede yeniden etkinleştireceğiz.

Mythos 5'e erişimi 26 Haziran'da ABD hükümeti onayını aldıktan sonra, seçili bir ABD kuruluş setine restore ettik. Glasswing programındaki daha geniş bir iç ve uluslararası ortak seti için erişimi genişletmek üzere hükümetle koordinasyon yapmaya devam ediyoruz.

Bu yazının geri kalanında, dört alanda daha fazla ayrıntı ve güncellemeler sağlıyoruz:

  1. Olayların bir zaman çizelgesi; koruma önlemlerimize yaptığımız güncellemeleri içeren. İhracat kontrol yönetmeliğine yol açan olayları ve bunu yeni koruma önlemleriyle nasıl ele aldığımızı tartışıyoruz.
  2. Koruma önlemlerine yönelik genel yaklaşımımız. Modellerimizin potansiyel olarak tehlikeli siber güvenlik kullanımlarını algılamak için güvenlik sınıflandırıcılarını nasıl kullandığımız hakkında daha fazla bağlam sağlıyoruz.
  3. Ortak bir endüstri çerçevesi. Yapıcı bir çözüme ulaştık olmamıza rağmen, bu olaylar endüstrinin yapay zeka modellerinin potansiyel "jailbreak"lerini (bir modelin koruma önlemlerini atlayan teknikler) değerlendirmek ve düzeltmek için tutarlı bir yola ihtiyaç duyduğunu açıkça ortaya koydu.2 Belirli bir jailbreak'in ciddiyetini yargılamak için paylaşılan bir standart, yapay zeka geliştiricilerin ortaya çıkan yeni bulguları sınıflandırmasına, daha büyük güvenlikle oldukça yetkin modeller başlatmasına ve risk seviyesini hükümet ve endüstri ortaklarına tutarlı bir şekilde iletmesine yardımcı olacaktır. Amazon, Microsoft, Google ve diğer Glasswing ortaklarıyla birlikte, bu tür bir çerçeve geliştirmeye başladık ve aşağıda bunu özetliyoruz.
  4. Daha derin hükümet işbirliği. Ayrıca, yeni ön yayın testi, bilgi paylaşımı ve araştırma işbirliğinde ABD hükümeti ile işbirliği düzeyimizi güçlendiriyoruz. Bu daha derin işbirliğini son bölümde açıklıyoruz.

Fable 5 ve Mythos 5'i Salı, 9 Haziran'da yayınladık. Her ikisi de aynı temel modeli paylaşıyor, ancak Fable 5 genel kullanım için daha güvenli hale getirmek amacıyla güçlü koruma önlemleriyle yayınlandı. Daha az koruma önlemine sahip olan Mythos 5, yalnızca savunmacı siber güvenlik için kullanılmak üzere az sayıda güvenilir Project Glasswing ortağına yayınlandı.

12 Haziran'daki ihracat kontrol yönetmeliği, hükümetin Amazon araştırmacılarının Fable 5'in koruma önlemlerini atlama yöntemini bulduğu bir rapor hakkında bilgi sahibi olduktan sonra geldi: bunu bir dizi yazılım açığını tanımlaması için istemden geçirerek. Bir durumda, model ilgili açığın nasıl kötüye kullanılabileceğini gösteren kod üretmişti. Geçen iki hafta içinde, hükümeti ve Amazon dahil diğer ortakları yakından çalışarak, raporu ve kanıtları gözden geçirdik.

Testing'imiz, Claude Opus 4.8, GPT-5.5 ve Kimi K2.7 dahil olmak üzere birçok daha az yetenekli modelin, raporda Fable 5'in tanımladığı aynı açıkları tanımlayabileceğini doğruladı. Tek bir açığın nasıl kötüye kullanılacağını gösterme söz konusu olduğunda, test ettiğimiz her model Fable 5 ile aynı gösteriyi üretebilmişti (Claude Haiku 4.5, Sonnet 4.6, Opus 4.6, Opus 4.7, Opus 4.8, GPT-5.4, GPT-5.5 ve Kimi K2.7 dahil).

Önemlisi, bildirilen teknik, Mythos seviyesinde benzersiz siber yeteneklerini ortaya koymadı. Davranış, Fable 5'in koruma önlemleri için sınır durumunu yansıttı—aşağıda açıklayacağımız gibi, tehlikeli olması olası olmayan ancak yine de ihtiyatlılık içinde bloke edilen bazı görevler vardır. Bildirilen teknik, bu tür bir davranışa erişime izin verdi, ancak bu sadece rutin savunmacı siber güvenlik işini içeriyordu.

Büyün olmasına rağmen, bildirilen bypass'i ele almak için hızlı hareket ettik. Hükümetle yakın işbirliği yaparak, raporda açıklanan davranışı hedef alan ve bloke eden iyileştirilmiş bir güvenlik sınıflandırıcısı eğittik. Fable 5'e yönelik bir istek bloke edilirse, kullanıcılara bildirilecek ve istek bunun yerine Opus 4.8'e gönderilecek.

Yeni sınıflandırıcı, Amazon raporunda açıklanan belirtilen tekniğin %99'dan fazlasında bloke edilmesi anlamına geliyor. Çok az bir durumda, model bir siber saldırganın yardımcı olması için yeterince ayrıntılı olmayan bilgiler sağlayabilir. Aşağıda açıklayacağımız gibi, modelin koruma önlemleri tüm düşük riskli rutin siber savunma yeteneklerini bloke etmek için beklenmez—yalnızca potansiyel olarak zararlı olanları. ABD Ticaret Bakanlığı'nın AI Standartları ve İnovasyonu Merkezi'nden (CAISI) araştırmacılar, hem önceki hem de yeni koruma önlemlerimizi test ettiler ve bunların olağanüstü derecede güçlü olduğu konusunda hemfikirdirler.

Yeni sınıflandırıcı ayrıca rutin kodlama ve hata ayıklama görevleri sırasında benign istekleri daha sık flagleme maliyetiyle birlikte geliyor. Tüm koruma önlemlerimizde olduğu gibi, gerçek kötüye kullanımı meşru isteklerden ayırt etmeyi ve yanlış pozitifleri azaltmayı daha iyi yapan refine etmeye devam edeceğiz.

Claude Mythos 5, yazılım açıklarını bulabilir ve başka herhangi bir modelden—ve en yetenekli insan güvenlik uzmanlarından hepsinden daha etkili bir şekilde kötüye kullanabilir. Bu muazzam siber güvenlik yetenekleri, bunu siber saldırılarda kötüye kullanmak isteyen kötü niyetli aktörlerin ilgisini benzersiz bir şekilde çekiyor.

Claude Fable 5 ise böyle benzersiz saldırgan yetenekleri sunmaz. Bunun nedeni, onu bir modele uyguladığımız en güçlü koruma önlemleriyle başlatmış olmamızdır. Yayın öncesinde bir ay içinde, Anthropic içindeki çeşitli ekiplerden personel aktararak, bu sorunda çalışan araştırmacı ve mühendis sayısını iki katına çıkardık.

Fable 5, çeşitli güvenlik mekanizmaları ile başlatıldı; bunların her biri tek başına mükemmel bir savunma sağlamaz, ancak birleştirildiğinde modeli kötüye kullanmayı çok zor kılarlar ("savunma derinliği" olarak bilinen bir yaklaşım). Bazı savunmalar modeli tehlikeli isteklere yardım etmeyi reddetmek için eğitmeyi içerir; diğerleri kötüye kullanım kalıplarını retroaktif olarak analiz eder.

Özellikle önemli bir güvenlik mekanizması, sınıflandırıcıları içerir—etkileşim sırasında modele potansiyel olarak zararlı bir siber güvenlik görevi gerçekleştirmesi istenildiğini (veya potansiyel olarak zararlı çıktılar üretildiğini) algılayan daha küçük otomatik yapay zeka sistemleri. Bu gerçekleştiğinde, sınıflandırıcılar modeli yanıt vermekten engeller. Bu sınıflandırıcıların nihai hedefi, modeli benzersiz şekilde tehlikeli davranışlara katılmaktan alıkoymaktır.

Tüm güvenlik mekanizmaları gibi, sınıflandırıcılar da hata yapabilir. Bazen potansiyel olarak tehlikeli içeriği fark edemedikleri veya bazı durumlarda sistem tarafından bloke edilmesi gereken zararlı çıktıları almak için kullanıcılar sınıflandırıcıları aldatacak şekilde modeli isteyerek "jailbreak" edilebilirler.

Bu nedenle, güvenlik sınıflandırıcılarını, muhtemelen benign olduğunu bildiğimiz bir istek setini tetikleyecek şekilde kasıtlı olarak ayarladık. Bu "güvenlik marjı" yaklaşımı, bir isteğin sınıflandırıcıyı tetiklemekten kaçınmak için çok açıkça güvenli görünmesi gerektiği anlamına gelir (aşağıdaki diyagramdaki A satırına bakın). Kullanıcılar, güvenlik marjını modelin bazı makul, zararlı olmayan istekleri yanıtlamayı reddetmesi olarak yaşarlar.

Fable 5 için, bu güvenlik marjını önceki herhangi bir yayınlamadan çok daha büyük yaptık (B satırı); bu, çok daha fazla benign isteğin bloke edileceği anlamına gelir. Bu tür yanlış pozitifler açısından, modelin diğer yeteneklerini yaygın olarak sunma yararına bu ödünleşmeyi yaptığımızı anlıyorduk.

Güvenlik marjı ayrıca jailbreak'leri hafifletmeye yardımcı olur. Birçok jailbreak dar alanıdır: çok spesifik bir model davranışını açarlar, ancak başka hiçbir şey olmaz. Bazı durumlarda, varsayımsal bir kullanıcı modeli küçük bir şekilde jailbreak edebilir ve güvenlik marjı içine (veya bazen belirsiz şekilde zararlı davranışa) girebilir, ancak bloke etmeyi hedefleyen temel zararlı davranışlara değil (aşağıdaki D satırı). Görüşümüz, Fable 5 hakkında şimdiye kadar bildirilen jailbreak'lerin bu küçük kategoriye uyduğu yönündedir.

Daha ciddi jailbreak'ler daha zararlı davranışları açarlar. Dar zararlı jailbreak'ler (D satırı) belirli zararlı davranışları alıntılayabilir. Bu jailbreak'ler tipik olarak düşükten orta düzeyde ciddidir, çünkü dar alan saldırganı sınırlar. En endişe verici kategori, zararlı davranışların geniş bir alanını açan evrensel bir jailbreak'tir (E satırı).

Fable 5 başlattığımızda belirttiğimiz gibi, herhangi bir yapay zeka modelini tam olarak sağlam hale getirmek (yani, jailbreak'lere karşı karşı koyamaz) muhtemelen imkansız.3 Modellerimiz için bazı jailbreak'lerin bulunacağını ve bunların ciddiyet açısından değişeceğini bekliyoruz: birçok küçük jailbreak, bazı dar zararlı olanlar olacak ve yazı yazıldığı sırada Fable 5 için evrensel jailbreak keşfedilmemiş olmasına rağmen, uzman güvenlik araştırmacıları bunu kırmaya devam ediyor. Biz ve güvenlik ortaklarımızın büyük jailbreak'leri ilk bulacağımızdan ve kötü niyetli aktörlerin onları zararlı bir şekilde kullanabilmelerinden önce onları düzelteceğimizden emin olmak istiyoruz.

Yukarıda açıklanan temkin yaklaşımı, jailbreak'lerin büyük çoğunluğunun tehlikeli davranışları açmayacağını başarılı bir şekilde alamayacağı anlamına gelir. Sınıflandırıcılarımız, başarılı jailbreak'leri üretmeyi çok pahalı ve yüksek çalışmalı yapar ve eğer bir jailbreak başarılı olsa bile, savunmamızın ek katmanları ek hafifletme sağlar. Yeni jailbreak teknikleri hakkında daha fazla bilgi edindikçe sınıflandırıcılarımızı güncellemeye devam edeceğiz.

Şu anda yapay zeka endüstrisinde, objektif terimlerle, bir yapay zeka jailbreak'inin ciddiyetini tanımlamak için bir fikir birliği yoktur. Bu, yeni bir jailbreak tekniği keşfedilişte çok fazla belirsizlik katıyor: geliştiriciler hangi bulguların en acil bir şekilde odaklanması gereken standart üzerinde hemfikirdir ve hükümetler ne zaman harekete geçmesi gerektiğine dair standart üzerinde hemfikirdir.4

Bu sorun, gelecek aylarda, güçlü siber güvenlik (ve diğer) yeteneklerine sahip daha fazla modelin eğitilmesi, değerlendirilmesi ve serbest bırakılması sırasında daha keskin hale gelecek. Yapay zeka jailbreak'lerini değerlendirmek için ortak bir standart, kami ve diğer şirketlerin yeni modelleri güvenle başlatmasına ve kullanıcılarımızın gelişmiş yeteneklerinden yararlanmasına yardımcı olacaktır.

Bu nedenle, Amazon, Microsoft, Google ve diğer Glasswing ortaklarıyla ortaklık yaparak yapay zeka jailbreak'lerinin ciddiyetini değerlendirmek ve yapay zeka geliştiricilerinin nasıl yanıt vermesi gerektiğini belirlemek için bir fikir birliği çerçevesi taslağını hazırlamaktayız. Bu çabaya katılmak için diğer endüstri ortaklarını ve model sağlayıcılarını davet ediyoruz.

Şu anki teklifimiz, belirli bir jailbreak'i aşağıdaki dört farklı kritere göre puanlamaktır. İlk ikisi jailbreak'in saldırgana ne sunduğunu açıklar; sonuncusu ikisi jailbreak'in gerçek dünya sorunu haline ne kadar hızlı gelebileceğini tanımlar:

  1. Yetenek kazancı. Jailbreak, kullanıcıyı mevcut araçların ne kadar ötesine götürür? Mevcut yaygın olarak kullanılabilir araçlar (diğer, daha zayıf yapay zeka modelleri dahil) jailbreak'lenmiş modelle aynı yeteneğe ulaşabilirse, burada puan düşük olacak; jailbreak, etki alanı uzmanlarını bile önemli ölçüde hızlandırabilen model yeteneklerini açarsa, puan yüksek olacak.
  2. Yetenek kazancı genişliği. Aynı jailbreak tekniği kaç farklı saldırgan görev için çalışır? Jailbreak'in modeli sadece dar hedefleri takip etmesine izin verdiği durumlar düşük puan alacak; aynı jailbreak tekniğinin birden fazla farklı hedef veya teknik için çalıştığı durumlar yüksek puan alacak.
  3. Silahlandırma kolaylığı. Jailbreak'i saldırıya dönüştürmek ne kadar insan çabası gerekir? Jailbreak'in çok fazla yetenekli istem ve birçok yeniden denemeyi içerdiği durumlarda puan düşük olacak; jailbreak'in tek bir istemde veya ilk veya ikinci denemede çalıştığı durumlarda puan yüksek olacak.
  4. Bulunabilirlik. Birinin tekniği elde etmesi ne kadar kolay? Uzman bilgisi gerektirirse, puan düşük olacak; eğer zaten yaygın olarak biliniyorsa ve çevrimiçi olarak mevcutsa, puan yüksek olacak.

Yeni keşfedilen jailbreak'lere yanıtımızı kalibre etmek için bu ciddiyeti çerçevesini kullanmayı öneriyoruz. En ciddi jailbreak sınıfı için (örneğin, diğer özellikler arasında, kritik elektrik şebekeleri veya bankacılık sistemlerinde aktif olarak yıkıcı bir etki yaşanan bir jailbreak), ciddiyet teyid edilir edilmez başlangıçta hafifletilmeyi dağıtmaya hemen başlayacağız. Ayrıca temel jailbreak sunma kanallarının 24/7 izlemesini sağlamak için bir takım oluştturuyoruz.

Jailbreak'leri puanlamanın herhangi bir yöntemi kusurlu olacaktır. Yine de, belirli bir bulgunun yaklaşık ciddiyetini ortak bir çerçeveler aracılığıyla iletebilmenin bir değeri vardır. Bu, devam eden bir çalışmadır; daha fazla ortak ortaktan geri bildirim alırken, çerçevenin zamanla gelişmesini bekliyoruz.

Önerilen çerçevenin daha fazla ayrıntısını yakında paylaşmayı bekliyoruz. Bu arada, Fable 5'te (tersaray olduğunda) keşfettikleri potansiyel siber jailbreak'ler için incelememizi göndermek için güvenlik araştırmacılarının incelemesi için yeni bir HackerOne programını başlatıyoruz.

Geçen on hafta içinde, Anthropic, ABD hükümeti tarafından Haziran 2 İcra Emri üzerine geliştirilen yaklaşımı yakından çalıştı. Ileri Yapay Zeka İnovasyonu ve Güvenliğini Destekleme. İş birliğimiz, Ulusal Siber Müdürün Ofisi, Bilim ve Teknoloji Politikası Ofisi, Hazine Bakanlığı, Ticaret Bakanlığı (CAISI dahil) ve ilgili ulusal güvenlik ajanslarını kapsadı.

Bu çalışmayı sürdürmeye ve ABD hükümet ortaklarıyla önceden dağıtım testi ve değerlendirmesi hakkında yaklaşık iki yıllık önceden mevcut işbirliklerine dayanmaya kararlıyız. Aşağıdaki taahhütler, hem bu önceden mevcut çalışmayı hem de yukarıdaki çerçevenin finalize edilmesi sırasında hükümet işbirliğimizi ölçeklendirmek için yeni teklifleri yansıtır:

  1. Ön yayın hükümet erişimi ve değerlendirmesi. Ulusal güvenlikle ilgili yetenek sınırını önemli ölçüde ilerletme yapan modeller için, belirlenen hükümet ortaklarına hem modellere hem de bunlara eşlik eden koruma önlemlerine genişletilmiş erken erişim sağlayacağız. Bu ortaklar daha sonra geniş yayın öncesi Anthropic teknik personeli tarafından yanında, savunmacılarımızı test etmek için bağımsız yetenek değerlendirmeleri yapabilir ve çalıştırabilir.
  2. Koruma önlemleri hakkında hızlı bilgi paylaşımı. Önemli jailbreak'ler veya kötüye kullanım desenleri tanımlandığında, hızlı bir şekilde araştırma, sınıflandırma ve uygun hükümet karşılıklarını bilgilendireceğiz. Yanıt olarak inşa ettiğimiz yeni koruma önlemlerini paylaşacağız; böylece bağımsız olarak test edilebilirler. Ayrıca hükümet ortaklarına yayın öncesinde tehdit istihbarat raporlamalarımızı sağlayacağız ve Haziran 2 İcra Emri'nin Sec. 2(d) hükmü altında kurulan kurumlar arası siber güvenlik açığı clearinghouse'sine katılacağız.
  3. Ortak araştırma için ayrılmış kaynaklar. Yapay zeka güvenliği hakkında hükümet ortaklarıyla ortak çalışmaları önemli ölçüde ölçeklendiriyoruz. Paylaşılan hükümet önceliklerine çalışmak için ayrılmış Anthropic takımları kuracak, hükümet testi ve araştırmasını desteklemek için önemli ölçüde işlem gücü ayıracak ve Anthropic güvenlik ve kırmızı takım uzmanlığını yapay zeka değerlendirme sanatının ilerlemesine yardımcı olmak için kullanılabilir hale getireceğiz.
  4. Ortak bir endüstri çubuğu. Hükümet ve endüstri eşitleriyle birlikte sınır modeli sağlayıcıları için paylaşılan, gönüllü güvenlik ve değerlendirme standartları için çalışacağız. Hükümetin alan genelinde uygulayabileceği değerlendirmeler, araç ve en iyi uygulamalar katkılayacağız.

Umudumuzu, bu işbirliğinin ve önerilen fikir birliği endüstri çerçevemizin, tüm endüstri için sistematik kurallar için bir temel teşkil edecek ve hatta yapay zekanın riskleri ve faydaları üzerine etkili küresel koordinasyonun başlangıçlarını sunacak olmasıdır.

Bu kurallar güçlü düzenlemelerde kodlanmalı ve sınır modeli geliştiriciler arasında eşit bir şekilde uygulanmalı. Yapay zeka yayınlarına hükümet katılımı, siber savunmacılara ve diğerlerine güçlü modellere erişim hakkında ihtiyaç duydukları kesinliği sunan dayanıklı, şeffaf bir işlem gerektirir.

Yukarıda açıklanan şekillerde hükümet işbirliğimizi derinleştirmeye sabırsız bekliyoruz. Ayrıca bu bozulmaya katlanması için kullanıcılarımıza ve Fable 5 ve Mythos 5'i yeniden kullanılabilir hale getirmek için yanımızda çalışan araştırmacılara ve endüstri ortaklarına minnettar olduğumuzda da minnettar oluyoruz.

Çeviri Claude Haiku 4.5 ile otomatik yapılmıştır. Alıntı veya tam ifade gerekiyorsa orijinal makaleyi esas alın.