Eski Hadoop yiğidi Cloudera, aşırı kalabalık pazardaki rakiplerinden daha açık olduğunu iddia ettiği veri platformunun tam olarak yönetilen bir hizmet olarak yazılım (SaaS) sürümünü duyurdu.
Cloudera Data Platform (CDP) One (başlangıçta yalnızca AWS’de mevcut) ürünüyle Cloudera, tek bir platformda analitik ve veri keşfi vaat ediyor.
Databricks tarafından, veri ambarlarının düzenli yaklaşımıyla veri göllerinin dağınık dünyasını bir araya getirmek için icat edilen “göl evi” terimini benimseyen Cloudera, yeni ürünün verimliliği artırmak için bir dizi düşük kodlu veri mühendisliği ve keşif aracı sunduğunu da iddia ediyor. uzman iş kullanıcıları için.
Cloudera, 2018’de Hortonworks ile 5 milyar dolarlık bir anlaşmayla, her iki firma da Hadoop’ta büyük veri dalgasının üstesinden geldikten sonra birleşti.
Birleşme, Hadoop Dağıtılmış Dosya Sistemi ile aynı sorunların çoğunu çözen AWS S3, Azure BlobStorage ve GCP Cloud Storage gibi bulut tabanlı nesne depolama teknolojilerinin ortaya çıkmasıyla aynı zamana denk geldi.
Eylül 2019’da şirket, kuruluşların şirket içi, hibrit bulut ve özel bulut altyapısı genelinde verileri nasıl dağıttığına, yönettiğine ve tükettiğine ilişkin entegre bir yaklaşım üretmek üzere tasarlanan Cloudera Veri Platformunu (CDP) piyasaya sürdü.
CTO Ram Venkatesh, CDP’nin bulut sürümünün AWS, Google Cloud ve Azure’da mevcut olduğunu söyledi. Kayıt müşterilerle ortaklaşa yürüttüğü bir hizmet olarak platform teklifiydi. CDP One, tam olarak yönetilen bir hizmettir.
Ancak kalabalık bir pazara girer. Snowflake, SaaS veri platformunda yapılandırılmış ve yapılandırılmamış verileri bir araya getirmeye çalışırken, Cloudera’nın Hadoop mirasını paylaşan Databricks, SQL analitiğini veri gölüne getirdi.
Ancak Venkatesh, Cloudera’nın müşterilere verilerini yönetmek ve analiz etmek için kullandıkları araçlar arasında seçim yapma konusunda açık olduğunu söyledi.
“Daha önceki denemelerde olan en büyük günah [at combining data lakes and data warehouses] haritalama her zaman bir motora bağlıydı. Hive üzerine kurulmuş olsaydı, Spark ikinci sınıf bir vatandaş olurdu. Spark ortaya çıkarsa – hangisi [Databrick’s] Delta — Impala için o kadar da iyi değil” dedi.
Ancak Venkatesh, Cloudera’nın Spark, Trino, Flink, Presto, Hive ve Impala gibi sorgu motorlarını desteklerken büyük veri iş yüklerinde yüksek performans için tasarlanmış açık bir tablo formatı sunan Apache Software Foundation’ın Iceberg’i benimsemesiyle bu yaklaşımdan kaçındığını söyledi.
“Orta katman – bağımsız ise – tek bir yöneticiye bağlı değildir. Baştan aşağı bulut depolama ile çalışmak üzere tasarlanmıştır – yalnızca HDFS ile değil – alt uçta ve üst uçta, Spark, Hive, Impala ve Pesto, Cloudera’nın desteklemeyebileceği şeyler.
Venkatesh, “Yönetim altında çok fazla veriye sahip olduğunuzda, tek bir motorun hepsini çözebileceğini düşünmek sadece kibirdir.” Dedi.
CDP One, şimdi kaydolan müşteriler tarafından kullanılabilir ve bu yıl içinde geniş çapta kullanıma sunulacaktır. ®