メインコンテンツにスキップ Skip to footer
コグニザントジャパン ブログ

生成AIはデータエンジニアリングをどう変えるか

生成AIにとってのデータエンジニアは、ソフトウェアにとってのコーダーと同じような存在です。この革新的なテクノロジーが持つ力は、データエンジニアの未来を大きく左右するでしょう。


データエンジニアは長年にわたり、現代のビジネスを陰から支えてきました。現代の競争社会でデータは常に増え続ける傾向にあります。データエンジニアは、そのようなデータを保存・分析するデータパイプライン、データベース、インフラを構築し、維持するために舞台裏で活躍してきました。デジタル時代における最も目覚ましい成果の多くは、彼らの働きによるところが大きいといえます。

しかし、日々の変化スピードは速く、データエンジニアの生活も大きく変化しています。生成AIの登場により、データを扱う日々の仕事も一変しました。煩雑なマニュアル作業の多くが生成AIによって自動化されたため、エンジニアは、より価値の高い仕事に集中できるようになりました。

ビジネスとテクノロジーの意思決定者である米国・英国大手企業の上級幹部を対象に実施した2023年9月の調査では、61%の意思決定者が、職場でAIが最も活躍する分野はどこかという質問に対して、ソフトウェア開発の生産性と答えています。

それだけではありません。データエンジニアリングがAIにとって極めて重要であるため、これまで舞台裏で目立たずに活躍してきたデータエンジニアが、ビジネスエコシステムにおいて新たな中心的役割を果たそうとしているのです。

生成AIとデータエンジニア

生成AIとは、膨大な既存データから学習したパターンや構造に基づいて、オリジナルのコンテンツを生成することができる新しいAIモデルのことを指します。今一番有名なモデルは、OpenAIのGPT-4でしょう。これは、ユーザー入力に基づいて、一貫性があり、自然で、文脈に適したテキストを生成できる自然言語処理モデルです。

他のAIモデルは視覚メディアで能力を発揮します。データエンジニアにとって、これらのテクノロジーがもたらす明らかな価値は、人間のデザイナーやアナリストの助けを(必ずしも)借りることなく、データセットから高品質のチャート、グラフ、レポートを作成できるようになることでしょう。

データエンジニアリングの主な目的は、データセットに隠された傾向や意味を常に明らかにすることです。生成AIにより、このような傾向や意味を特定できるだけでなく、技術者でなくてもはっきりと瞬時に把握できるようになります。

しかし、データエンジニアリングの「創造性」はチャート以外にも必要とされてきました。ひらめき、抽象化、目的の問い立てを最も必要とする作業は、データインフラそのものの設計です。

ここでも、生成AIが大きな力を発揮します。モデルがより高度になれば、スキーマの作成から特徴量エンジニアリングまで、より複雑なデータエンジニアリングが可能になります。しかしすでに、コーディングやシステムメンテナンスなど、データを扱う技術的な業務の多くが生成AIによって自動化されているため、データエンジニアリングの専門家達は、より多くの時間と創造性を価値の高い仕事やより抽象的な思考に費やすことができるようになっています。

生成AIとデータ

生成AIは、データエンジニアが既存のデータフローを管理しやすくするだけではなく、新しいデータをも生成します。多くの企業が、管理が難しい「データスワンプ」を管理が容易な「データレイク」に変換することに苦慮していますが、この生成AIのメリットはあまり理解されていないかもしれません。しかし、新しいデータは、いくつかの分野で成長を促進し、意思決定を強化することが可能なのです。

  • データの増強。不完全なデータセットはすべてのデータエンジニアにとって頭痛の種です。GPT-4がまるで人間が書いたようなテキストを生成できるように、生成AIモデルは、敵対的生成ネットワーク (GANs) や変分オートエンコーダー (VAEs) などの高度な機械学習を採用し、リアルで高品質なデータサンプルを生成します。

    複数のニューラルネットワークを訓練し連携させることで、欠損データと機能的に区別がつかなくなる程度まで、生成された出力を改良することができます。手作業によるデータ補完を不要にするこの技術革新は、データエンジニアリングプロセスを大幅に合理化し、データクリーニングと前処理に費やす時間を削減します。

  • データ匿名化。GDPRやCCPAのような厳しいデータプライバシー規制が敷かれている今、機密性の高いユーザー情報のプライバシーを確保することは企業にとって不可欠です。生成AIモデルを使用すると、個人の特定につながる情報を削除しながら、元データの統計的特性を保持する合成データを作成することができます。この合成データは、プライバシー規制に違反することなく、データ分析やその他の目的に使用することができます。

  • 予測分析。過去と現在のビジネスデータから引き出されるインサイトが意思決定者にとって貴重なものだとしたら、未来の情報を使って何ができるでしょうか?生成AIには予知能力はありませんが、過去と現在のデータを分析した情報に基づいて、顧客行動、市場動向、業績、その他の重要なビジネス要因を予測することができます。

データエンジニアリングの注意点

生成AIの潜在的な危険性については多くのことが書かれています。生成AIはデータエンジニアリングそのものの産物であるため、生成AIのあらゆる問題は、結局のところデータエンジニアリングにとっての問題でもあります。しかし、データエンジニアリングにおける生成AIの利用を考えてみると、よく話題にされるこのようなリスクの中には、他の分野と比較してそれほど問題ではないものもあれば、より懸念すべきものもあります。

バイアスと著作権に関する問題。昨年11月にChat GPT-3.5が登場し、生成AIが注目を集めるようになって以来、いくつかの倫理的な懸念が指摘されてきました。このモデルは、人間が作成した膨大な量のテキスト(その多くはインターネット上で収集されたもの)で訓練されているため、帰属表示や報酬なしに、一人の作家の作品を直接コピーしてしまう危険性がありました。その結果、同意なしにモデルの訓練に使われた素材の作者達に対して、もし何か義務があるとすれば、それは何なのかという、哲学的な問題が提起されました。

さらに憂慮すべきは、トレーニングセット内のバイアス、モデルを開発する人々のアンコンシャスバイアスが、そうした不公正を現実の世界や将来のデータセット内に永続させ、さらには増幅させる可能性があるという現実でした。

データエンジニアは、このような問題に留意する必要があります。生の数値データの集合は、言葉の集合と同様にバイアスに汚染される可能性があるからです。しかし、抽象化されたビッグデータ・インフラの世界では、ほとんどの場合、数値が人の気分を害することはありません。言葉や絵と違い、数値が傷つけたり、ショックを与えたり、中傷したりする可能性は低いでしょう。

しかし、モデルの透明性は、データエンジニアにとって大きな課題です。生成AIモデル、特にディープラーニングのモデルは、しばしば機能的な「ブラックボックス」になり得ます。モデルは、自然言語のプロンプトという形で入力を受け取り、そこから人間の頭でも消化可能なコンテンツを生成することができます。しかし、多くの場合、入力と出力の間の「推論」の連鎖は完全に不透明で、モデルだけが理解できる言葉で行われているのです。

AI画像ジェネレータを使うグラフィックデザイナーにとって、これは問題ではないかもしれません。結局のところ、芸術的なインスピレーションというのは神秘に包まれているからです。しかし、入力と出力の間の論理的連鎖を理解し、それを保護・複製することが常に必要な、現実主義者であるデータエンジニアにとっては、生成AIの不可解さは特に大きな課題となるかもしれません。

生成AIモデルの解釈可能性と説明可能性を向上させる技術を開発することは、その普及とデータエンジニアリング・ワークフローへの統合にとって極めて重要です。

ユニークな関係

生成AIが私たちの多くに影響をもたらすように、データエンジニアにも同様の影響をもたらします。つまり、私たちの仕事のやり方だけでなく、仕事の内容さえも変えてしまうような重大な存在なのです。

しかし、この点でデータエンジニアリングがユニークなのは、データエンジニアリングが文字通り生成AIの原点であり、AIを動かすものだからです。大規模な言語モデルやそれに相当するモデルが持つ驚異的な力はすべて、新しいコンテンツを生成するためにモデルが適用する数十億から数兆のパラメータにデータをふるいにかけ、分析し、重み付けするシステムと、訓練に使用する膨大なデータセットから生まれます。

別の言い方をすれば、生成AIにとってのデータエンジニアは、ソフトウェアにとってのコーダーや自動車にとってのメカニックのような存在であり、その重要性は増すばかりです。今から一年以内に、生成AIの訓練データの60%が合成データになるとも予測されていますが、それ自体がデータエンジニアが生み出した生成AIの産物と言えます。

昨年の第4四半期の売上データを円グラフにするのが主な仕事である人々にとって、今後数年間は刺激的なものになるでしょう。あらゆる分野のプロフェッショナルが人間とマシンの新たなパートナーシップの一員としての生活に適応していく中で、データエンジニアはそのような関係に立ち会い、付き添う仲人としての存在感をますます強めていくと予想されます。

人類の当面の未来は、データエンジニアによって形作られていくと言っても過言ではありません。そして、データエンジニアリングの未来は、この革新的なテクノロジーの活用に意欲的かつ用意周到に取り組む人々によって形作られていくのです。

詳細は、生成AIについてのウェブサイトをご覧いただくか、こちらまでお問い合わせください。

この記事は英語の原文を翻訳したものです。

原文はこちら:
How gen AI will forever change data engineering

This article was written by Naveen Sharma, Global Head of AI & Analytics.



Naveen Sharma

Global Practice Head of AI & Analytics

Digitally Cognizant author Naveen Sharma

Naveen Sharma is SVP of Cognizant’s AI & Analytics business. He blends strategic vision with tactical execution and is focused on driving growth via thought leadership, innovation, pre-sales, offering development and portfolio management.




最新記事
関連記事