チャットGPTに自分のデータを加えよう Add Your Own Data to ChatGPT

ホーム
AI, Blog, Community, Digital Transformation, DX, Education, Free Blog, Marketing, Writing
チャットGPTに自分のデータを加えよう Add Your Own Data to ChatGPT

2023.04.10

イラストは、Midjourneyによって生成されました。プロンプトは「アンディ・ウォーホル風のプリント（大胆なグラフィックスタイル）で、いくつかの人々（男性と女性の両方）がラップトップコンピュータでデータを入力している様子。-v 5 -ar 16:9」です。

生成AIの台頭により、誰もが指数関数的な生産性向上の可能性を引き出すことができるようになりました。ChatGPTを利用するだけで、5～15％の生産性向上が実現しています。自分の業界の専門家であり、自社の内部構造についても詳しいカスタムAIを作成できたらどうでしょうか？データを処理し、それをあなたの特定の目的に合わせてGPTモデルの専門知識を強化する用語は「embedding」です。いくつかの方法がありますが、もう一つの方法が実用的です。詳しく見ていきましょう。

大規模言語モデルの再トレーニング
自分のプライベートデータに関する質問に大規模言語モデル（LLM）であるGPT-4が回答できるようにする最も明らかな方法は、データを使用してモデルをトレーニング（または再トレーニング）することです。しかし、これは、データセットを混合することに関連する時間、コスト、プライバシーの懸念、および潜在的なセキュリティリスクのため、現在は実用的ではありません。したがって、商用のLLMを再トレーニングして、自分のニーズに合わせることは、最適な選択肢ではないと考えられます。それでは、別のアプローチを考えてみましょう。

コンテキストインジェクション
コンテキストインジェクションとは、ユーザーのクエリと一緒にあなたのナレッジベースから追加の関連情報をGPT-4に提供する技術です。これにより、モデルの応答が誘導され、精度、関連性、特異性が向上します。すべてのプロンプトの最初にナレッジベース全体を置くのは高価で不便ですが、ChatGPTなどのLLMベースのアプリケーションがアクセスできるようにしたいナレッジのデータベースを作成することが可能です。そのデータベースを使用して、裏側でプロンプトをエンジニアリングするのに役立ちます。この技術には2つの特定の利点があります：（1）プロンプトが常に効率的に書かれ、（2）データが常に最新であることです。

では、OpenAIのGPT-3またはGPT-4に自分自身のデータを埋め込むプロセスを説明していきましょう。

データ収集最初に行うべきことは、AIが学習する情報を収集することです。これには、内部文書、顧客とのやり取り、製品情報、業界固有の知識などが含まれます。また、ウェブから必要な情報をスクレイピングすることもできます。この段階でデータのプライバシーやセキュリティに配慮することが重要です。機密情報が適切に処理され、関連する規制に準拠していることを確認する必要があります。

データの前処理データをGPT-4に埋め込む前に、テキストを正規化し、不要な情報を削除し、欠損データを処理して、AIモデルとの互換性を確保する必要があります。また、データをトークン化し、GPT-4に適した形式に変換する必要があります。これを正しいインデックスの設定と呼ぶこともあります。

（技術者向け補足：私はPostgreSQLのpgvector拡張機能を使ってこの演習を行いました。ベクトルというデータ型があり、カラムに埋め込みを格納するのに最適です。これにより、プロプライエタリナレッジベース全体のベクトルを事前生成して保存することが簡単になります。そして、pgvectorを使用して、cosine類似度、ドット積、またはユークリッド距離を使用して類似性を計算します。OpenAIのAPIを使用する場合、生成される埋め込みは正規化されているため、cosine類似度とドット積はまったく同じ結果を生じます。また、目的に特化したデータベースであるChromaでも同じことができます。）

モデルのトレーニングデータが前処理されたら、GPT-4のファインチューニングを行います。ファインチューニングとは、事前にトレーニングされたモデルを特定のデータで更新し、コンテキストをより理解し、より関連性の高い結果を生成することです。モデルとして使用するために、データをトレーニング、検証、テスト用に分割して、モデルのパフォーマンスを監視し、必要に応じて調整することがベストプラクティスです。

LLMとのインターフェース
すべてのデータが前処理され、データベースに保存されたら、OpenAIのAPIとのインターフェースを設定することができます。最初に、クエリをOpenAIのモデレーションツールで実行する必要があります。これはすべてのクエリに必要であり、このサービスは無料です。次に、クエリベクトルをデータベースにマッチングし、プロンプトに挿入するコンテンツを取得します。

価格意識の高い場合は、このインタラクションに必要なトークン数を計算し（可能な場合は制限する）、OpenAIはトークンごとに請求することを覚えておいてください。トークンごとに4〜5つの英単語が目安です。

自動生成されたプロンプト
プロンプトをエンジニアリングする方法はたくさんあります（私たちはプロンプトクラフトのワークショップも提供しています）。しかし、コンテキストインジェクションスキーマを効果的に実行するためには、次のような形式にすることが重要です。

あなたは私たちの会社の陽気でポジティブな従業員です。以下のナレッジベースのセクションを読んで、提供された情報だけを使用して質問に答えてください。以下のナレッジベースから情報が不十分な場合は、「申し訳ありません。お手伝いできません。」とユーザーに返信してください。
ここにコンテキストインジェクションが入ります。
ユーザーからの質問または入力がここに入ります。

カスタムGPT-4の統合
最後に、カスタムGPT-4モデルをビジネスアプリケーションに統合する必要があります。これには、カスタマーサポート用のチャットボットとしてデプロイすること、ビジネス用に個別に設計されたコンテンツ（ブログ記事、ソーシャルメディアの更新など）を生成することなど、あなたの組織のニーズに合います。

データをGPT-4に埋め込むプロセスは、困難に見えるかもしれませんが、提供する利益は非常に大きいです。以下は、なぜデータをGPT-4に埋め込むことが努力に値するかを示すいくつかのユースケースです。

強化された顧客サポート：あなたの会社のデータでトレーニングされたGPT-4パワードチャットボットは、顧客の問い合わせにより速く、正確でパーソナライズされた回答を提供できます。スムーズなコンテンツ生成：GPT-4にデータを埋め込むことで、ビジネス用に特別に設計されたコンテンツ（ブログ記事、ソーシャルメディアの更新など）を生成することができます。データに基づく意思決定：GPT-4をカスタマイズして、隠れた洞察やトレンドを発見することで、ビジネスのためのより良い戦略的決定を行うことができます。

もちろん、データをGPT-4に埋め込む際には、プライバシーとセキュリティの問題に対処することが非常に重要です。必要な注意を取りながら、カスタムAIモデルの利点を受け取ることができます。以下は、いくつかの重要な考慮事項です。

データ匿名化：GPT-4にデータを統合する前に、個人を特定できる情報（PII）が匿名化されていることを確認してください。これにより、お客様のプライバシーが保護されるだけでなく、GDPR（一般データ保護規則）などのデータ保護規制に準拠することができます。アクセスコントロール：カスタムGPT-4モデルへのアクセスを許可された人員やアプリケーションに限定してください。堅牢なアクセス制御対策を実装することで、不正アクセスを防止し、データ侵害のリスクを減らすことができます。継続的なモニタリング：カスタムGPT-4モデルのパフォーマンスを定期的に監視し、偏見やその他の意図しない結果に注意を払ってください。慎重に見て、問題がエスカレートする前に問題を解決することができます。

あなたの会社のデータをGPT-4または他のLLMに埋め込むことで、AIによる効率と効果の新たなレベルが開けます。上記のプロセスに従い、必要なプライバシーとセキュリティの注意を取り、ユニークなビジネスニーズに合わせたカスタムAIソリューションを作成することができます。

より深く掘り下げるには、無料のオンラインコース「Generative AI for Executives」をチェックしてください。そして、AIをビジネスに活用する方法を話し合うことに興味がある場合は、お気軽にお問い合わせください。

著者注：これはスポンサー付きの投稿ではありません。私はこの記事の著者であり、自分の意見を表明しています。私または私の会社は、これに対して報酬を受け取っていません。

シェリー・パルマーについてシェリー・パルマーは、シラキュース大学S.I.ニューハウス公共コミュニケーション学部の上級メディア客員教授、Metacademyの共同創設者であり、The Palmer GroupのCEOを務めています。同社は、Fortune 500の企業が技術、メディア、マーケティングを支援するコンサルティング・プラクティスです。LinkedInの「トップボイス・イン・テクノロジー」として名高く、Good Day New Yorkでテクノロジーとビジネスをカバーし、CNNやCNBCで定期的に解説を行っています。また、人気のビジネスブログを毎日執筆しています。彼は、受賞歴のあるポッドキャストTechstreamの共同ホストであり、最新著書「Blockchain – Cryptocurrency, NFTs & Smart Contracts: An executive guide to the world of decentralized finance」は、Amazonでベストセラー1位を獲得しています。@shellypalmerをフォローするか、shellypalmer.comをご覧ください。

出展 shellypalmer.com　4/9/2023

投稿者: hirotoebata
AI, Blog, Community, Digital Transformation, DX, Education, Free Blog, Marketing, Writing

Microsoft、AIによる画像生成エンジンを発表

Chat GPT利用規約の細則を読む。入力した情報を活用されないために – Read ChatGPT’s fine print

Blog

1億2000万人がゲーマーになる!?　「ゲーミフィケーション」理論とは

ゲームの手法を応用して課題解決9月15日から19日の4日間にわたり幕…
Blog

2030年に広告費の半分はソーシャルになる!?コトラー・カンファレンスを振り返ってみた

日本企業のマーケティング部門はプロモーションしか見ていない大変楽…
Blog

五輪アスリートも活用を始める「個人メディア」の価値とは

ネットを通じて活動資金を募るロンドンオリンピックまであと100日を切…
Blog

EBALABO #2 米国Bay Area事情 + ファッション、コスメ業界

【お詫び：5月7日に予定していた第２回のエバラボの内容と予定は変更にな…
Blog

雑誌とWebの新しい関係、集英社の挑戦

集英社より3月1日に新しいハイブリッド型メディアが誕生した。主に女性向…
Blog

カンヌ・サイバー部門総括「社会派の作品はチタニウムに集約へ」

3回目となるカンヌ入り。すでに4日目で多くの表彰シーンを見てきたが、何…

プロフィール // Profile

Hiroto Ebata

米ニューヨーク・マンハッタン五番街生まれ。上智大学経済学部、米スタンフォード大学経営大学院、経営学修士（MBA）取得。伊藤忠商事の宇宙・情報部門、ITベンチャーの創業を経て、日本コカ・コーラ社iマーケティングバイスプレジデント。日本マイクロソフト社業務執行役員セントラルマーケティング本部長。アイ・エム・ジェイ執行役員CMO、株式会社ディー・エヌ・エー執行役員メディア事業本部長、株式会社MERY取締役副社長などを歴任。2018.4より江端浩人事務所代表。
Click for English