ja

Dataikuのデータ準備

大規模な分析やAIプロジェクトのために、データを接続、クレンジング、準備します。

 

AIによるデータ準備

データの準備はこれまでデータアナリストの領域でしたが、新しい生成AIによるデータ準備(近日公開予定)では、アナリストやビジネスユーザーが必要な準備ステップを記述すると、システムがビジュアルレシピの一部としてそれらのステップを自動的に作成します。これにより、データ準備の作業を行うすべての人が、この作業を簡単に確認できるようになります。

 

ビジュアルデータフロー

Dataikuフローは、プロジェクトのデータパイプラインを視覚的に表現します。コーダーにもノンコーダーにも一元的な場所を提供し、ここでデータを確認して分析し、データセットを結合したり変換するレシピを追加し、予測モデルを構築することができます。

このビジュアルフローに含まれるコードベースやプラグインの部品を使い、カスタマイズしたり拡張性を高めることができます。

 

主要なデータソースの接続

Dataikuは、Amazon S3、Azure Blob Storage、Google Cloud Storage、Snowflake、Databricks Lakehouse、SQLデータベース、NoSQLデータベース、HDFSなど、オンプレミスやクラウド上の数十の主要データソースへのビルド済みのコネクタを提供します。

 

データ準備とエンリッチ化

Dataikuは、データセットの結合、グループ化と集計、データのクリーニング、変換、エンリッチ化などを数回のクリックで実行できる使いやすいビジュアルインターフェースを提供します。最新の生成AIテクノロジーをコードなしで組み込むことも可能です。それだけでなくさらに、Dataikuはビジュアルフローの一部としてレシピのすべての手順を自動的にドキュメント化します。

クリックよりコーディングを好む場合、Python、R、SQLなどのおなじみの言語を使用してコードレシピを作成し、お気に入りのIDEで開発および編集できます。

 

100の内蔵のデータトランスフォーマー

強力な準備レシピには、ビニング、連結、文字列操作、通貨や日付の変換、ジオエンリッチメント、リシェイプなどの一般的なデータ操作のための100の内蔵データトランスフォーマーが含まれています。

さらに、Dataikuは、データの型と値に基づき関連する関数を提案します。

カスタム変換のために、スプレッドシートで使うようなフォーミュラ言語を利用できる他、さらなる柔軟性のためにPythonコードを利用できます。

 

ノーコードの生成AIレシピ

Dataikuは、エンティティの抽出、センチメント分析、テキストの要約、分類をお好みの生成AIサービス上で実行するために、ノーコードで使えるビジュアルレシピを提供します。

Dataikuのレシピを使用することで、実際に利用可能な、LLMを使用したAI搭載プロジェクトを、迅速かつ簡単に構築できます。

 

特殊なデータ変換とアノテーション

Dataikuは、地理空間データ、時系列データ、画像、メタデータや構造をもつテキストといった特殊なデータ型を解析し、メタデータや構造を追加するためのさまざまな機能やツールを提供します。

例えば、ジオ結合やジオコーディング、時系列のリサンプリング、テキストのベクトル化、画像やテキストのアノテーションのためのマネージドフレームワークなどがあります。