データブリックスが「Unity Catalog」をOSS化、ザハリアCTOが語るその真意とは

2024年6月14日(金)16時55分 マイナビニュース

6月12日〜14日に米サンフランシスコで年次カンファレンス「Data + AI Summit 2024」を開催したDatabricks(データブリックス)。初日の基調講演では「Unity Catalog」のOSS(オープンソースソフトウェア)化が発表された。そもそも、なぜOSS化に踏み切ったのだろうか。その真意について2日目の基調講演で語られた、Databricks Chief Technology Officer and Co-Founder(最高技術責任者兼共同創業者)のMatei Zaharia(マテイ・ザハリア)氏の話をお伝えする。
ザハリア氏は、Databricksのチーフテクノロジスト兼共同設立者であると同時に、米スタンフォード大学コンピュータサイエンス学部助教授を務めている。2009年にカリフォルニア大学バークレー校で博士号を取得した際にApache Sparkプロジェクトを開始し、MLflow、Delta Lake、Apache Mesosなど、広く使われているそのほかのデータ、機械学習ソフトウェアのプロジェクトなどに取り組んできた。
Unity Catalogがオープンソースにとって、何を意味するのか?
まずは、Unity Catalogのおさらいから。そもそもUnity Catalogは、データとAIのためのガバナンスレイヤを提供し、データブリックスのプラットフォーム内で、構造化データ、非構造化データ、ML(機械学習)モデル、ノートブック、ダッシュボードなど、さまざまなデータやデータアセットをシームレスに管理することを可能としている。現在は10TB以上のデータを扱い、ユーザーは1万以上、アクティブユーザーは1500人となっている。
一方、Unity Catalog OSSはDelta Lake、Apache Iceberg、Apache Hudiのクライアントを6月中に提供予定の「Delta Lake UniForm」を介して読み取ることが可能。さらにIceberg REST CatalogとHive Metastore(HMS)のインタフェース標準もサポートし、表形式・非表形式のデータ、MLモデル、生成的AIツールなどのAIアセットを横断的にガバナンスできるため、組織は管理の効率化が図れるというものだ。
Unity Catalogが持つ“ガバナンス”がオープンソースにとって、何を意味するのか?このような問いからザハリア氏は説明を始めた。
.

マイナビニュース

「基調講演」をもっと詳しく

「基調講演」のニュース

「基調講演」のニュース

トピックス

x
BIGLOBE
トップへ