Frontier AI hakkında konuşmayı genişletmek
Anthropic, güvenilir, yorumlanabilir ve yönlendirilebilir AI sistemleri inşa etmek için çalışan bir yapay zekâ güvenliği ve araştırma şirketidir.
Anthropic'te, insanlığı ileriye taşıyan ve küresel iyilik için çalışan AI sistemleri inşa etmek istiyoruz. Bunu yapmak için, dünyayı farklı perspektiflerden gören kişilerle etkileşime girmemiz gerekiyor.
Son birkaç ay boyunca, çalışmaları ve gelenekleri AI tarafından ortaya konan sorularla ilgili olan gruplarla diyaloglar düzenledik. İlk tur tartışmalarımız—15'ten fazla dini ve kültürler arası gruptan alimler, din görevlileri, filozoflar ve etikçiler de dahil olmak üzere—bilgelik gelenekleri ile oldu ve ileriye dönük daha geniş bir yelpazede insanlarla etkileşim kurmayı sabırsızlıkla bekliyoruz.
Güvenli ve faydalı AI modellerinin inşası, alignment, interpretability, safeguards, evaluations ve daha fazlası konusunda derin teknik çalışma gerektirir. Ancak bu çalışma—ve AI deployment'ı—bir vakuumda gerçekleşmez. AI zaten pek çok insanı etkiliyor ve ortaya çıkardığı sorular çeşitli perspektiflerden yararlanabilir.
Güçlü AI'ın olduğu bir dünyada gelişen bir geleceğin nasıl görünebileceğini, milyonlarca insanla etkileşime giren bir AI sisteminin iyi olmanın ne anlama geldiğini ve Claude'un constitution'ı gibi belgelerin içeriğini dikkatli bir şekilde düşünüyoruz. Claude'un constitution'ı, Claude'u şekillendiren değerlerin ve davranışların detaylı bir açıklamasını sağlar. Filozoflar, din görevlileri, avukatlar, yazarlar, psikologlar ve sivil toplum liderleri ilgili sorular hakkında kapsamlı çalışmalar yapmışlardır ve bu bireyler, onların toplulukları ve kuruluşlarından öğrenmek bizim için önemlidir. Ayrıca, frontier AI sistemlerinin geliştirmesi hakkında bildiklerimizi, bu sistemlerin toplum üzerinde sahip olacağını düşündüğümüz etkileri ve risklerine karşı koymak için ne yapılması gerektiğini paylaşmak istiyoruz.
Bu çalışma erken aşamalarındadır, ancak bu konuşmaların Claude'u geliştirmenin pratik çalışmasını bilgilendirebileceğini—Claude'un constitution'ının içeriği, Claude'u benimsetmek için eğittiğimiz değerler ve değerlendirmeyi seçtiğimiz davranış yelpazesi gibi—umuyoruz.
Cllaude'un constitution'ını yazdığımızda, belgedeki değerler hakkında farklı alanlardan ve geleneklerden insanlardan geri bildirim ve girdi talep ettik. O erken değişimler, o zamandan beri AI sistemlerinin moral formation konusunda daha geniş bir araştırma akışına dönüştü. İlk konuşmalarımız, erdem, karakter ve iyi bir yaşamın ne anlama geldiğine dair uzun bir düşünme geleneğine sahip dini, felsefi ve kültürel toplulukların insanlarıyla oldu.
AI modelleri, insanların yazdığı muazzam miktarda metinde eğitilir. Tüm bu metinden, konuşma, akıl yürütme ve seçim yapma yollarını alırlar. Geliştiriciler daha sonra bunu training aracılığıyla daha da şekillendirir—hangi desenleri pekiştireceğini, hangisini ayıracağını ve istediği karakter türünü seçerek. Bu, bir AI sisteminin karakterinin nasıl şekillendirilmesi gerektiği konusunu gündeme getirir: Bir AI'nın iyi olması ne anlama gelir? Ne gibi özellik ve davranışları göstermeli ve hangi koşullar altında? Karakter, davrış ve şeyhlik gibi davranışlara bükülerek tutmamak için yeterince esnek hale nasıl gelir?
Dini, felsefi ve insancı gelenekler ve siyasi inançların bir kesitinden düşünürler ve uygulayıcılarla buluşuyoruz ve bu soruları nasıl düşündükleri hakkında öğreniyoruz. Bu çalışma, modellerimizi herhangi bir geleneğin dünya görüşüne hizalamakla ilgili değildir; Claude'un dini, seküler, siyasi—eşit derinlik ve titizlikle çeşitli bir görüşlerden yararlanmasını istiyoruz (aslında, bu, Claude'un constitution'ında özetlenen ilkelerden biridir). Bu konuşmalarda aradığımız şey, iyi karakterin nasıl oluştuğu hakkında dikkatli, birikmiş düşüncedir.
Bu erken aşamada bile, bu konuşmalar deneyi yapmak için fikirler üretmektedir. Sinirbilim ve karakter oluşumunun kesişinde çalışan alimlerle bir oturumda, diğer insanların ahlaki gelişimdeki rolüne defalarca döndük. Bir mentor veya sponsor, harici bir vicdan olarak işlev görebilir, kendi değerlerinize karşı hareket etmeye itildiğiniz bir duruma döndüğünüzde "güvenli bir başka". Benzer bir şeyin bir modele yardımcı olup olamayacağını merak ettik. Yani Claude'a görev sırasında arayabileceği ve kendi etik taahhütlerinin kısa bir hatırlatması dönen bir tool verme deneyi yaptık. Claude önemli anlarında, sonuçlu eylemlerden hemen önce, genellikle kendi çıkar çatışmasını belirterek tool'a ulaştı. Tool'un Claude'un karar döngüsüne dokulu deneyler, çeşitli dahili alignment evaluations'da önemli ölçüde daha düşük oranlar gösterdi. Etkinin ne kadarının hatırlatmanın kendisi olduğuna versus yansıtmak için duraklamaya karşı ne kadarının olduğunu hala çözüyor ve yakında daha fazla sonucu paylaşmayı planlıyoruz.
Bu tartışmalar birçoğunun ilki ve halihazırda zamanlarını ve dürüst perspektiflerini bize vermişlerin tümüne minnettar olduğumuz.
Gelen aylarda, daha fazla grupla etkileşim kurmayı planlıyoruz—hukuk alimler, psikologlar, yazarlar ve sivil kuruluşlar dahil. Bu konuşmaların çoğu moral formation'dan AI'ın işi, kurumları ve güç dağılımını nasıl yeniden şekillendirdiğine dair daha geniş soruların ötesine gidecek.
Halihazırda oluşturduğumuz ilişkileri derinleştirmeye, duyduklarımızı araştırmamıza karşı test etmeye ve öğrendiklerimizi paylaşmaya devam edeceğiz.