Brown ayrıca, yaklaşık iki ay önce IMO’nun Openii’yi, matematiksel testlerin yazılması için tasarlanmış bir programlama dili olan Lean’e dayanan rekabetin resmi bir versiyonuna katılmaya davet ettiğini açıkladı. Şirket, “Lean’in kısıtlamaları olmadan doğal dilde genel akıl yürütmeye odaklandıkları” için azaldı. “Onlara asla doğal dilin matematiği seçeneğine yaklaşılmadı” dedi.
Ancak, bir IMO koordinatörü söz konusu X kullanıcısı Mikhail Samin, Openai’nin kapanış töreninden önce açıkladığı ve Brown’un ifadesiyle çeliştiğini. Koordinatör, Openi’nin “Openii’nin” modellerini test etmek için IMO ile işbirliği yapan yapay zeka şirketlerinden biri olmadığını “belirterek” kaba ve uygunsuz “eylemlerini tanımladı.
Matematik 1959’dan beri sürdü
1959’dan beri devam eden uluslararası matematiksel Olimpiyat, matematiksel akıl yürütmenin en zorlu testlerinden birini temsil ediyor. 100’den fazla ülke her biri altı katılımcı gönderiyor ve 4.5 saatlik iki oturumda testlere dayalı altı sorunla karşılaşan rakipler. Sorunlar genellikle kaba bir hesaplama gücü yerine derin bir matematiksel sezgi ve yaratıcılık gerektirir. Yapabilirsiniz Kesin sorunları görün 2025’te Olympiad çevrimiçi yayınlandı.
Örneğin, Sorun Biri Öğrencilerden üçgen bir nokta ızgarası (üçgen bir pegboard gibi) hayal etmelerini ve tüm noktaları tam olarak düz çizgilerde kullanarak nasıl örteceğini anlamalarını ister. Dönüm noktası, bazı çizgilerin “güneşli” olarak adlandırılmasıdır: bunlar, 45º’lik bir açıda yatay, dikey veya diyagonal olarak çalışmayan çizgilerdir. Zorluk, üçgeninizin ne kadar büyük olursa olsun, her zaman tam olarak 0, 1 veya 3 güneşli çizgilerle modeller oluşturabileceğinizi göstermektir – asla 2, 4, asla başka bir sayı yok.
Openai sonuçlarının zamanları bazı tahmin pazarlarını şaşırttı, Atamıştı 2025 yılına kadar IMO Gold’u kazanan herhangi bir yapay zeka sistemine % 18’lik bir olasılık.
Openi’nin duyurulmasının ardından ve bu makalenin ilk yayınlanmamız Google DeepMind sonuçlarını yayınladı IMOAyrıca, altı problemin beşini çözen Gemini Deep Think modeli ile altın madalyanın performansını iddia ediyor. Openai’nin aksine, Google doğrudan IMO organizatörleriyle çalıştı ve IMO koordinatörleri tarafından sınıflandırılan ve resmi olarak sertifikalandırılmış sonuçları aldı. Google, 28 Temmuz ambargoya katılmayı planladı, ancak Openai’nin erken sürümünden sonra reklamını artırdı.
DeepMind’in kıdemli bilim adamı Thang Luong, Ars Technica’ya şunları söyledi: “IMO organizasyonu ile beşini mükemmel bir şekilde çözdüğümüzü doğruladık. Bence bu süreci geçmeyen herkes bir noktayı kaybedebilir ve gümüş elde edebiliriz”.
Bu yazı 22 Temmuz’da Noam Brown tarafından yeni bir beyan ve Google DeepMind’in IMO duyurusunun sonuçları hakkında güncellendi.