Qwen-Image, güçlü ve açık kaynak için yeni bir görüntü jeneratörüdür

Posta kutunuzda daha akıllı bilgiler mi istiyorsunuz? Sadece AI, veri ve güvenlik liderleri için önemli olanı elde etmek için haftalık bültenlerimize kaydolun. Şimdi kaydolun

Sonrasında Yaz’ı kavrayın Güçlü, özgürce mevcut ve birleştirdikleri kodlamaya odaklanan yeni modeller ile birleştirilmiş veya bazı durumlarda kapalı/sahip ABD rakiplerini, sahiplerini geçtiler, AI araştırmacılarının Aibaba çatlağının “Takımı Qwen” bugün, yüksek sınıflandırılmış olan yeni bir görüntü jeneratör modelinin yayınlanmasıyla geri döndü. – Ayrıca açık kaynak.

Qwen-Image, üretken görüntü modelleriyle dolu bir alanda öne çıkıyor onun için Metnin grafikler içinde dikkatlice oluşturulmasına vurgu – Birçok rakibin hala savaştığı bir alan.

Alfabetik ve logografik komut dosyalarını destekleyerek, model özellikle karmaşık tipografi, çok satırlı düzeni, semantiği E paragrafı E seviyesinde yönetme konusunda yeteneklidir. iki dilli içerik (örn. İngilizce-Çince).

Uygulamada, bu kullanıcılara izin verir Film posterleri, sunum slaytları, dükkan sahneleri, el yazısı şiir ve stilize infographics gibi içerikler üretir – Önerileriyle uyumlu açık bir metinle.

Etki AI serisi San Francisco’ya Dönüyor – 5 Ağustos

Yapay zekanın bir sonraki aşaması burada – hazır mısınız? Otonom ajanların kurumsal çalışma akışlarını nasıl yeniden şekillendirdiğine, gerçek zamanlı olarak uçtan uca otomasyona kadar kurumsal çalışma akışlarını nasıl yeniden şekillendirdiğine özel bir bakış için Block Liderleri, GSK ve SAP’ye katılın.

Yerinizi şimdi koruyor – alan sınırlı: https://bit.ly/3guupf

Qwen -image çıktısının örnekleri, gerçek dünyada çok çeşitli kullanım durumlarını içerir:

Pazarlama ve Markalaşma: Marka logoları, stilistik kaligrafi ve tutarlı tasarım motifleri ile iki dilli poster
Sunum tasarımı: Slaytların Buketleri Başlık hiyerarşileri ve tema için uygun görsel unsurlar ile düzenin farkında
Talimat: Diyagramlı sınıf malzemelerinin üretimi ve hassasiyetli didaktik metin
Perakende ve e-ticaret: Ürün etiketlerinin, işaretlerinin ve çevresel bağlamın okunabilmesi gereken mağaza sahneleri
Yaratıcı İçerik: El yazısı şiir, sahne anlatıları, anime tarzı illüstrasyon ile -metin

Kullanıcılar modelle etkileşime girebilir Qwen sohbet Web sitesi, istemi kayıt alanının altındaki düğmelerden “Görüntüler Oluşturma” modunu seçerek.

Bununla birlikte, kısa ilk testlerim, metin ve hızlı bağlılığın, aynı adı taşıyan Amerikan şirketinin sahibinin popüler görüntü jeneratörü olan Midigourney’den önemli ölçüde daha iyi olmadığını ortaya koydu. Qwen Chat aracılığıyla oturumum, tekrar tekrar denemeler ve istemi reformüllerinden sonra bile büyük bir hayal kırıklığı ile metnin hızlı anlayışında ve sadakatinde daha fazla hata yaptı:

Yine de Midjourney, sadece sınırlı sayıda ücretsiz nesil sunar ve qwen imajına kıyasla, açık kaynak ve yayınlanan ağırlıklar sayesinde başka bir şey için abonelik gerektirir. Yüzü kucaklaHerhangi bir şirket veya ücretsiz üçüncü taraf tedarikçisi tarafından kabul edilebilir.

Lisanslar ve müsaitlik

Qwen-Image, Apache 2.0 altında dağıtılır lisansTicari ve ticari olmayan kullanım, yeniden dağıtım ve değişiklik yaparak, lisans metninin ilişkilendirilmesi ve dahil edilmesi türev işler için gereklidir.

Bu, broşürler, duyurular, iletişim, bülten ve diğer dijital iletişim gibi iç veya harici garantiler üretmek için kullanılacak açık kaynaklı görüntülerin üretimi için bir araç arayan şirketler için cazip hale getirebilir.

Ancak modelin eğitim verilerinin kesinlikle tutulan bir sır olarak kalması – AI görüntülerinin diğer ana jeneratörlerinin çoğunda olduğu gibi – Bazı şirketleri kullanma fikrinde sıkılaştırabilir.

Qwen, aksine Adobe Firefly VEYA Openni’nin yerel GPT-4O görüntülerinin üretimi, Örneğin, Ürününün ticari kullanımları için tazminat sunmaz (Yani, bir kullanıcı telif hakkı ihlali nedeniyle dava edilirse, Adobe ve Openai onları mahkemede desteklemenize yardımcı olacaktır).

Model ve ilişkili kaynaklar ekleme not defterleri, değerlendirme araçları ve nokta belirleme komut dosyaları birden çok depo aracılığıyla kullanılabilir:

Buna ek olarak, Arena’ya çağrılan canlı bir değerlendirme portalı, kullanıcıların çiftler halinde nesil boyutlu görüntüleri karşılaştırarak ELO tarzı bir kamu sıralamasına katkıda bulunmasına olanak tanır.

Eğitim ve geliştirme

Qwen-görüntü performansının arkasında bir İlerici öğrenmeye, multimodal aktivitelerin uyumuna ve agresif verilerin bakımına dayanan büyük bir eğitim süreciBuna göre Teknik Belge Bugün yayınlanan araştırma ekibi.

Eğitim Corpus, dört sektörden milyarlarca metin çifti içerir: doğal görüntüler, insan portreleri, sanatsal ve tasarım içeriği (poster ve kullanıcı arayüzünün düzeni gibi) ve metne odaklanan sentetik veriler. Qwen ekibi, eğitim veri cesedinin boyutunu belirtmedi“Milyarlarca metin imajı çiftine” ek olarak. Her bir içerik kategorisinin yaklaşık yüzdesinin bir dağılımı sağladı:

Doğa: ~% 55
Tasarım (UI, Poster, Sanat): ~% 27
İnsanlar (portreler, insan aktivitesi): ~% 13
Sentetik metin performans verileri: ~% 5

Özellikle Qwen, tüm sentetik verilerin dahili olarak üretildiğini ve diğer AI modelleri tarafından oluşturulan hiçbir görüntünün kullanılmadığını vurgulamaktadır. Tarif ve filtrelemenin ayrıntılı aşamalarına rağmen, Belgeler, verilerin herhangi birinin kamuya açık veri veya sahip kümelerinden yetkilendirilip yetkilendirilip alınmadığını açıklamamaktadır.

Gürültü riskleri nedeniyle sentetik metni dışlayan birçok üretken modelin aksine, Qwen görüntüsü, özellikle Çince’deki düşük frekanslı karakterler için karakter kapsamını iyileştirmek için kesinlikle kontrol edilen sentetik oluşturma boru hatlarını kullanır.

Bir müfredat tarzı strateji kullanılır: Model basit altyazılar ve metin olmayan içerik ve içerik ile başlarDaha sonra düzene duyarlı metin senaryolarına ilerleyin, karışık dilde ve yoğun paragraflarda oluşturun. Bu Modelin komut dosyaları ve biçimlendirme türleri üzerinde genelleşmesine yardımcı olduğu kademeli bir serginin gösterilmiştir.

Qwen-Image üç temel modülü entegre eder:

Qwen2.5-vlMultimodal dil modeli, bağlamsal anlamı çıkarır ve nesli sistemin önerileri aracılığıyla yönlendirir.
Kodlayıcı/VAE kod çözücüYüksek çözünürlüklü belgeler ve gerçek dünya düzenleri üzerinde eğitilmiş, ayrıntılı görsel temsilleri, özellikle küçük veya yoğun metinleri yönetir.
MmditDifüzyon modelinin omurgası, ortak öğrenmeyi görüntü ve metin yöntemleriyle koordine eder. Ölçeklenebilir dönen konumsal (multimodal dönen kodlama) yeni bir kodlama sistemi, jetonlar arasındaki mekansal hizalamayı geliştirir.

Bu bileşenler birlikte, Qwen görüntüsünün görüntü, nesil ve hassas düzenleme anlaşılmasını içeren görevlerde etkili bir şekilde çalışmasına izin verir.

Performansın referans parametreleri

Qwen-image birkaç kamu ölçütüne göre değerlendirildi:

Manevra VE DPG Takip eden ve itiraz eden özelliklerin tutarlılığı için
Tekbahar VE Tiif Düzenin kompozisyon akıl yürütmesi ve sadakati için
CVTG-2K– Çince kelimeVE Tezgah Metnin oluşturulması için, özellikle çok dilli bağlamlarda

Hemen hemen tüm durumlarda, Qwen görüntüsü GPT görüntü 1 gibi kapalı kaynağa sahip mevcut modellere karşılık gelir veya aşar [High]Seedream 3.0 ve Flux.1 Kontext [Pro]. Özellikle, Çin metninin oluşturulması üzerindeki performansı, karşılaştırılan tüm sistemlerden önemli ölçüde daha iyiydi.

İnsan-Qwen-image çiftleriyle 10.000’den fazla karşılaştırmadan Air-Basate AI’nın halka açık sıralamasında genel olarak üçüncü sırada yer almaktadır ve en iyi açık kaynak modelidir.

Şirket teknik karar vericileri için çıkarımlar

Karmaşık çalışma akışlarını yöneten ekipler için Qwen görüntüsü, farklı rollerin operasyonel ihtiyaçlarına uyan çeşitli işlevsel avantajlar getirir.

Dağıtım-Wi’de görme dili modellerinin yaşam döngüsünü yönetenlerDeğer, Qwen -image çıktılarının sabit kalitesinde ve entegrasyona hazır bileşenlerinde değer bulur. Açık kaynak doğa lisans maliyetlerini azaltırken, modüler mimari (QWEN2.5-VL + VAE + MMDIT) kişiselleştirilmiş veri kümelerine adaptasyonu veya belirli alan çıkışları için mükemmelliği kolaylaştırır.

. Müfredat tarzı eğitim verileri ve açık referans sonuçları, ekiplerin amaca uygunluğu değerlendirmelerine yardımcı olur. İster pazarlama vizyonlarının dağıtımı, ister e-ticaret ürününün belgelerini veya grafiklerini oluşturun, Qwen görüntüsü, sahip kısıtlamaları olmadan hızlı deneylere izin verir.

Mühendisler Yapay zeka boruları oluşturma veya dağıtılmış sistemlere model dağıtma görevi, altyapının ayrıntılı belgelerini takdir edecektir. Model bir üretici tüketici mimarisi kullanılarak eğitildi, ölçeklenebilir çok devrim işlemeyi destekliyor (256p ila 1328p) ve megatron-LM ve tensör paralellik ile çalışmak için inşa edildi. Bu Bu, güvenilirlik ve tümlerin sayıldığı hibrid bulut ortamlarında dağıtım için bir aday yapar.

Buna ek olarak, görüntüdeki görüntüyü (TI2I) değiştirme iş akışlarına destek ve etkinlikler için özel talimatlar gerçek veya etkileşimli zaman uygulamalarında kullanılmasına izin verir.

Profesyoneller veri, doğrulama ve dönüşümün yutulmasına odaklandı Qwen-Image’ı, yapay görme modellerinde eğitim veya artış için sentetik veri setleri oluşturmak için bir araç olarak kullanabilir. Anonim ve çok dilli ek açıklamalarla yüksek çözünürlüklü görüntüler üretme yeteneği, Valley OCR faaliyetlerindeki performansı, nesnelerin tespitini veya analiz düzenlerini artırabilir.

Qwen’in görüntüsü olduğu için ayrıca QR kodları gibi eserlerden kaçınmak için eğitilmişDikkatli ve Filigran metni, birçok kamu modeline kıyasla üstün kaliteli sentetik girdiler sunar ve şirket ekiplerinin eğitim setinin bütünlüğünü korumasına yardımcı olur.

Geri bildirim ve işbirliği yapmak için fırsatlar arıyor

Qwen ekibi, model versiyonunda topluluğun açılmasının ve işbirliğinin altını çiziyor.

Geliştiriciler, Qwen görüntüsünü test etmeye ve mükemmelleştirmeye, çekme istekleri sunmaya ve değerlendirme sıralamasına katılmaya teşvik edilir. Metin renderları hakkında geri bildirim, sadakatin değiştirilmesi ve çok dilli kullanım durumları gelecekteki iterasyonları değiştirecektir.

Ekip, “görsel içeriğin yaratılmasına yönelik teknik engelleri azaltma” hedefiyle ilan edilen bir hedefle, Qwen-Image’ın sadece bir model olarak değil, endüstriler arasında daha fazla araştırma ve pratik dağıtım için bir temel olarak hizmet edeceğini umuyor.

Her gün VB ile şirket kullanma vakaları hakkında günlük bilgiler

Patronunuzu etkilemek istiyorsanız, VB Daily sizi kapsar. Massimo YG için bilgileri paylaşabilmeniz için, şirketlerin üretken yapay zeka ile ne yaptığını, düzenleyici vardiyalardan pratik dağıtımlara kadar içsel bir kepçe veriyoruz.

Bizimkini oku Gizlilik Politikası

Abonelik için teşekkürler. Daha fazla bak Bülten VB burada.

Bir hata oluştu.

Qwen-Image, güçlü ve açık kaynak için yeni bir görüntü jeneratörüdür

Byadmin

Lisanslar ve müsaitlik

Eğitim ve geliştirme

Performansın referans parametreleri

Şirket teknik karar vericileri için çıkarımlar

Geri bildirim ve işbirliği yapmak için fırsatlar arıyor

By admin

Related Post

Teknolojide Uzman ve Kurumsal Lider Nasıl Olunur – Computerworld

Delta, AI’nın önderliğindeki fiyatları deneyimlerken, düzenleyiciler ve gezginler dinamik oranlar ile aynı şekilde endişelenen "İnsan bilişsel sınırlarının ötesine geçin" (Max Chafkin/Bloomberg)

Uygun fiyatlarla optik serebral görüntüleme ilerlemesi

You missed

İspanya’nın ana havaalanlarında Ryanair Baging Handler Strike

Kariyerinde aksanlı daha aksanlı

“Sunshine” hem çocukluktaki gerçekliğin kutlaması hem de kontrolüdür

Cumhurbshkani Erdoğan, Yaş ım