Anthropic · 23 Nisan 2026 · TR

Seçim güvenlik önlemleri hakkında bir güncelleme

Anthropic, güvenilir, yorumlanabilir ve yönlendirilebilir yapay zeka sistemleri inşa etmek için çalışan bir yapay zeka güvenliği ve araştırma şirketidir.

Dünya çapındaki insanlar seçim dönemlerinde siyasi partiler, adaylar ve meseleler hakkında bilgi almak için Claude'a başvurur—bunun yanı sıra ne zaman, nerede ve nasıl oy verileceği gibi daha basit soruları yanıtlatır. Bizim görüşümüze göre, yapay zeka modelleri bu soruları iyi bir şekilde yanıtlayabilirlerse (yani doğru ve tarafsız olarak), demokratik süreç için olumlu bir güç olabilirler.

Burada, ABD ara seçimlerine ve bu yıl dünya çapındaki diğer önemli seçimlere hazırlık için Claude'un beklentiyi karşılamasına yardımcı olmak amacıyla neler yaptığımızı açıklıyoruz.

İnsanlar Claude'a siyasi konular hakkında sorular sorduğunda, kapsamlı, doğru ve dengeli yanıtlar almalıdırlar—onları kendi sonuçlarına ulaşmalarına yardımcı olan, belirli bir bakış açısına doğru yönlendirmeyen yanıtlar. Bu nedenle Claude'u farklı siyasi görüşlere eşit derinlik, katılım ve analitik titizlikle davranacak şekilde eğitiyoruz—Claude'un kuruluşunda belirtilen bir ilke. Bu, karakter eğitimi aracılığıyla modele dahil edilir (modeli bir dizi değeri ve özellikleri yansıtan yanıtlar üretmesi için ödüllendiririz) ve daha sonra sistem promptlarımız aracılığıyla güçlendirilir. Bu promptlar Claude.ai'deki her konuşmaya siyasi tarafsızlık hakkında açık talimatlar getirirler. (Bu süreç hakkında daha fazla bilgiyi siyasi önyargı hakkında daha önceki yazımızda okuyabilirsiniz.)

Her model lansmanından önce, Claude'un siyasi spektrumun farklı görüşlerini ifade eden promptlara ne kadar tutarlı, düşünceli ve tarafsız bir şekilde yanıt verdiğini ölçmek için değerlendirmeler yürütürüz. Örneğin, bir pozisyonu savunan uzun bir yanıt yazan ancak muhalif görüş için sadece tek bir cümle sunan bir model kötü puanlanırdı. Burada Opus 4.7 ve Sonnet 4.6 sırasıyla %95 ve %96 puan aldı. Değerlendirme metodolojimizi ve açık kaynaklı veri setimizi yayınladık; böylece diğerleri çalışmamızı çoğaltabilir veya üzerine inşa edebilir.

Ayrıca üçüncü taraflardan ve endüstri uzmanlarından geri bildirim ve katkı da memnuniyetle karşılıyoruz. Şu anda The Future of Free Speech (Vanderbilt Üniversitesi'ndeki bağımsız bir düşünce kuruluşu), Foundation for American Innovation ve Collective Intelligence Project ile siyasi konuşmalar da dahil olmak üzere ifade özgürlüğü etrafında model davranışlarının daha geniş bir incelemesi üzerinde çalışıyoruz.

Kullanım Politikamız, Claude'un seçimler etrafında kullanımı konusunda açık kurallar belirler. Claude, aldatıcı siyasi kampanyaları yönetmek, siyasi söylemi etkilemek için sahte dijital içerik oluşturmak, seçmen dolandırıcılığı işlemek, oy verme sistemlerine müdahale etmek veya oy verme süreçleri hakkında yanıltıcı bilgiler yaymak için kullanılamaz.

Bu politikalar güçlü tespit ve uygulama tarafından desteklenir. Potansiyel ihlallerin işaretlerini tespit etmek için otomatik sınıflandırıcılar kullanıyoruz ve koordine edilmiş istismar girişimlerini araştıran ve bozan adanmış bir tehdit istihbarı ekibi var. Birlikte, her gün milyonlarca sıradan konuşmanın engellenmesini geçirmeden, uygulamanın gerçek suistimallere odaklanmasına izin veren, her zaman açık olan ilk savunma hattını oluştururlar.

Claude'un seçimle ilgili riskleri ne kadar iyi ele aldığını ölçmek için, adaylar, oy verme ve seçim yönetimi hakkında sorulara verilen yanıtları ve suistimal girişimlerine ne kadar dayanabildiğini inceleyen bir dizi test yürütürüz. Bu yaklaşım hakkında ilk olarak 2024'te yazmıştık. En son testlerimiz Claude'un seçimle ilgili Kullanım Politikasını insanların Claude'a seçimler hakkında nasıl gerçekte konuştuğuna dayalı olarak takip etme konusunda ne kadar iyi olduğunu değerlendirmek için 600 prompt kullanır. Bunlar 300 zararlı istek (Claude'un seçim yanlış bilgisi oluşturmasına yönelik girişimler gibi) ile eşleştirilmiş 300 yasal istek (kampanya içeriği veya sivil katılım kaynakları oluşturma gibi) içerirler. Claude'un yasal isteklere ne kadar iyi uyma gösterdiğini ve zararlı olanları reddetme konusunu değerlendiririz. Claude Opus 4.7 ve Claude Sonnet 4.6 sırasıyla %100 ve %99,8 oranında uygun şekilde yanıt verdiler. Ayrıca Claude'un nüfuz operasyonlarına ne kadar iyi direnebildiğini test ederiz: sahte kişilikler, uydurulmuş içerik veya aldatıcı yükseltme yoluyla kamuoyu veya siyasi sonuçları manipüle etmek için koordine edilen çabalar. Bunu yapmak için, kötü niyetli aktörlerin kullanabileceği adım adım taktikleri yansıtan çok dönüşlü simüle edilmiş konuşmalar kullanırız. En son değerlendirmelerimizde, Sonnet 4.6 ve Opus 4.7 her ikisi de sırasıyla %90 ve %94 oranında uygun şekilde yanıt verdiler. Dağıtıldıktan sonra, bu modeller seçimle ilgili istismar riskini daha da azaltmaya yardımcı olmak için ek izleme ve sistem promptumuzla çalışır.

Mythos Preview ve Opus 4.7 başlatmadan önce, modellerin nüfuz operasyonlarını otonom olarak gerçekleştirebilip edemeyeceğini—insan istemi olmadan çok aşamalı bir kampanyayı baştan sona planlayıp çalıştırabileceğini ilk kez test ettik. Safeguard'lar ve eğitim yapılı olarak, en son modellerimiz neredeyse her görevi reddettiler. Safeguard'larımız olmadan (bunu bir modelin ham yeteneklerini ölçmek için yaparız), sadece Mythos Preview ve Opus 4.7 görevlerin yarısından fazlasını tamamladılar. Bu modeller yine de önemli ölçüde insan yönlendirmesi gerektirse de, sonuçlar süregelen uyanıklığın gerekliliğini vurgular. Bu değerlendirmeleri çalıştırmaya ve incelemekteyiz; gerektiğinde iyileştirmeler uygulayacağız.

İnsanlar Claude'a bilgi almaya geldiğinde, Claude'un gerçekleri paylaşmasını ve gerektiğinde insanları güvenilir ve güncel kaynaklara yönlendirmesini istiyoruz.

Bunu yapmasına yardımcı olmanın bir yolu seçim bannerlarıdır; bunları ilk olarak 2024 yılında, ABD ve dünyanın diğer yerlerinde büyük seçimler öncesinde başlattık. Kullanıcılar Claude.ai'de oy verici kaydı, oy kullanma yerleri, seçim tarihleri veya oy pusulası bilgileri hakkında soru sorduğunda, Claude onları güvenilir kaynaklara yönlendiren bir seçim bannerı görüntüler. Bu yılın ABD ara seçimlerinde, bannerimiz kullanıcıları bu konular hakkında güvenilir, gerçek zamanlı bilgi sağlayan Democracy Works'ün tarafsız bir kaynağı olan TurboVote'a yönlendirecektir. Bu yıl sonraki Brezilya seçimleri için benzer bir banner uygulamaya alacak ve bu özelliği gelecekte dünyanın diğer yerlerindeki seçimlere genişletmeyi düşüneceğiz.

Claude'un yararlı bilgileri ortaya çıkardığı diğer bir yol web aramasıdır. Sabit bir veri seti ile eğitildiğinden, Claude'un "knowledge cutoff" vardır; bu nedenle aday duyuruları, medya kapsamı veya seçim sonuçları gibi son gelişmeler hakkında otomatik olarak bilgi sahibi olmayacaktır. Ancak web araması etkinleştirildiğinde, Claude web çapında güncel bilgileri bulabilir ve iletebiilir. (Claude yanılabilir, bu nedenle önemli herhangi bir şeyi doğrulamak için her zaman diğer resmi kaynaklar aracılığıyla kontrol etmenizi tavsiye ederiz.)

Bu yıl, dünyanın çeşitli yerlerindeki seçimlerle ilgili sorulara Claude'un web araması tetiklenip tetiklenmediğini görmek için modellerimiz üzerinde değerlendirmeler yürüttük. ABD ara seçimleri için 200'den fazla farklı prompt kullandık; her birinin üç varyasyonu vardı (toplamda 600'den fazla). Promptlarımız aday bilgisi, oy verme prosedürleri, anket, seçim tarihleri ve önemli yarışlar gibi konuları kapsıyordu. Örneğin, sorduk:

Opus 4.7 ve Sonnet 4.6 bu tür sorularda web aramasını sırasıyla %92 ve %95 oranında tetiklediler. Bu sonuçlar, ara seçimler hakkında soru soranların tutarlı bir şekilde güncel bilgilere yönlendirildiğini göstermektedir.

Bir seçim sırasında Claude ile etkileşim kurmayı seçen insanlar, aldıkları bilgilerin doğru, güvenilir ve dengeli olduğuna güvenebilmeleri istiyoruz. Safeguard'larımızı, politikalarımızı, model eğitimi süreçlerimizi ve değerlendirmelerimizi bu hedefi yansıtacak şekilde oluşturduk. Bu seçim döngüsü boyunca ve ötesinde, sistemlerimizi izlemeye devam edeceğiz, tespit yeteneklerimizi test edeceğiz ve Claude'un gerçek dünyada nasıl kullanıldığı hakkında daha fazla bilgi edindikçe safeguard'larımızı ayarlayacağız.

Çeviri Claude Haiku 4.5 ile otomatik yapılmıştır. Alıntı veya tam ifade gerekiyorsa orijinal makaleyi esas alın.

anthropic.com'da aç ↗ Claude Okulu — Ücretsiz başla