Posta kutunuzda daha akıllı bilgiler mi istiyorsunuz? Sadece AI, veri ve güvenlik liderleri için önemli olanı elde etmek için haftalık bültenlerimize kaydolun. Şimdi kaydolun
Şirketler, uygulamalarının iyi ve güvenilir çalışmasını sağlamak için yapay zeka modellerine giderek daha fazla ele alındıkça, model ve insan değerlendirmeleri tarafından yönlendirilen değerlendirmeler arasındaki boşluklar daha net hale gelmiştir.
Bununla savaşmak için Langchain Büyük dil modellerine ve insan tercihlerine dayalı olarak değerlendiriciler arasındaki boşluğu doldurmanın ve gürültüyü azaltmanın bir yolu olan Langsmith’e hizalama eklendi. Alinea Evali, Langsmith kullanıcılarının kendi LLM tabanlı değerlendiricilerini oluşturmalarına ve şirket tercihlerinden daha fazlasını hizalamak için kalibre etmelerini sağlar.
Langchain, “Ama ekiplerden sürekli olarak duyduğumuz büyük bir zorluk:” Değerlendirme puanlarımız, bir insanın ekibimize bir insanın demesini beklediğimiz şeye karşılık gelmiyor “. Bu yazışma başarısızlığı, gürültülü karşılaştırmalara yol açıyor ve zamanın yanlış sinyalleri kovaladığı zaman,” dedi. Bir blog yazısında.
Langchain, Jude olarak LLM-AS Jude değerlendirmelerini entegre eden veya doğrudan test panosunda diğer modeller için model tarafından yönlendirilen birkaç platformdan biridir.
Etki AI serisi San Francisco’ya Dönüyor – 5 Ağustos
Yapay zekanın bir sonraki aşaması burada – hazır mısınız? Otonom ajanların kurumsal çalışma akışlarını nasıl yeniden şekillendirdiğine, gerçek zamanlı olarak uçtan uca otomasyona kadar kurumsal çalışma akışlarını nasıl yeniden şekillendirdiğine özel bir bakış için Block Liderleri, GSK ve SAP’ye katılın.
Yerinizi şimdi koruyor – alan sınırlı: https://bit.ly/3guupf
Şirket, ana bilim adamının Amazon Eugene Yan’ın bir belgesindeki hizalamaya dayandığını söyledi. Onun kağıtYan, değerlendirme sürecinin bölümlerini otomatikleştirecek Aligneval olarak da adlandırılan bir uygulamanın çerçevesini ortaya çıkardı.
Olaylar hizalama, şirketlerin ve diğer üreticilerin değerlendirme önerilerini işlemelerine, insan değerlendiricilerinin hizalama puanlarını ve LLM tarafından üretilen puanları ve temel bir hizalama puanını karşılaştırmasını sağlar.
Langchain, Evals’ı hizalamanın “daha iyi değerlendiriciler oluşturmanıza yardımcı olan ilk adım olduğunu” söyledi. Şirket, zamanla performansı takip etmek ve istemi optimizasyonunu otomatik olarak oluşturan hızlı varyasyonlar üreten analizi entegre etmeyi amaçlamaktadır.
Nasıl Başlatılır
Kullanıcılar öncelikle uygulamaları için değerlendirme kriterlerini belirleyecektir. Örneğin, sohbet uygulamaları genellikle hassasiyet gerektirir.
Daha sonra, kullanıcılar insan incelemesi için istedikleri verileri seçmelidir. Bu örnekler hem iyi hem de olumsuz yönleri göstermelidir, böylece insan değerlendiricilerinin uygulamanın bütünsel bir vizyonunu elde edebilmeleri ve bir dizi oy atayabilmeleri gerekir. Bu nedenle geliştiriciler, referans noktası görevi görecek faaliyetler veya faaliyetler için puanları manuel olarak atamalıdır.
Bu nedenle geliştiriciler, insan seçicilerinden gelen hizalama sonuçlarını kullanarak model değerlendiricisi ve öğeleri için bir başlangıç istemi oluşturmalıdır.
Langchain, “Örneğin, LLM’niz belirli cevapları sürekli olarak geri çekerse, daha net kriterler eklemeyi deneyin. Değerlendiricinizin puanının iyileştirilmesi yinelemeli bir süreç olarak tasarlanmıştır. Belgelerimizdeki isteminizin en iyi uygulamaları hakkında daha fazla bilgi.” Dedi.
Artan sayıda LLM değerlendirmesi
Giderek daha fazla işletme Değerlendirme resimlerini ele almak Değerlendirmek için Uygulamalar ve temsilciler dahil olmak üzere yapay zeka sistemlerinin güvenilirliği, davranışları, faaliyetlerin hizalanması ve kontrolü. Modellerin veya ajanların nasıl gerçekleştirileceğine dair açık bir puan gösterebilmek, kuruluşlara sadece yapay zeka uygulamalarını dağıtmak için güven vermekle kalmaz, aynı zamanda diğer modelleri karşılaştırmayı da kolaylaştırır.
Şirketler sever Salesforce VE Aws Müşterilerin performansı değerlendirmeleri için yollar sunmaya başladı. Salesforce’s Aracı 3 Temsilcinin performansını gösteren bir komuta merkezi vardır. AWS, hem insan hem de otomatik değerlendirme sağlar. Amazon rock rock platformuKullanıcılar, kullanıcı tarafından oluşturulan modelin değerlendiricileri olmamasına rağmen, kullanıcıların uygulamalarını test edeceği modeli seçebilirler. Açık Ayrıca modellere dayalı bir değerlendirme sunar.
Yarım‘S Kendini etkileyen değerlendirici Meta, uygulamaları inşaat platformlarından herhangi biri için henüz bir özellik haline getirmemesine rağmen, Langsmith’in kullandığı LLM-A-Mudight konseptine dayanmaktadır.
Birden fazla geliştirici ve şirket performansı değerlendirmek için daha basit bir değerlendirme ve daha kişiselleştirilmiş yollar gerektirdiğinden, daha fazla platform, diğer modelleri değerlendirmek için modellerin kullanımı için entegre yöntemler sunmaya başlayacak ve diğerleri şirketler için özel seçenekler sunacaktır.