AI

チャットGPTに自分のデータを加えよう Add Your Own Data to ChatGPT

イラストは、Midjourneyによって生成されました。プロンプトは「アンディ・ウォーホル風のプリント(大胆なグラフィックスタイル)で、いくつかの人々(男性と女性の両方)がラップトップコンピュータでデータを入力している様子。-v 5 -ar 16:9」です。

生成AIの台頭により、誰もが指数関数的な生産性向上の可能性を引き出すことができるようになりました。ChatGPTを利用するだけで、5~15%の生産性向上が実現しています。自分の業界の専門家であり、自社の内部構造についても詳しいカスタムAIを作成できたらどうでしょうか?データを処理し、それをあなたの特定の目的に合わせてGPTモデルの専門知識を強化する用語は「embedding」です。いくつかの方法がありますが、もう一つの方法が実用的です。詳しく見ていきましょう。

大規模言語モデルの再トレーニング
自分のプライベートデータに関する質問に大規模言語モデル(LLM)であるGPT-4が回答できるようにする最も明らかな方法は、データを使用してモデルをトレーニング(または再トレーニング)することです。しかし、これは、データセットを混合することに関連する時間、コスト、プライバシーの懸念、および潜在的なセキュリティリスクのため、現在は実用的ではありません。したがって、商用のLLMを再トレーニングして、自分のニーズに合わせることは、最適な選択肢ではないと考えられます。それでは、別のアプローチを考えてみましょう。

コンテキストインジェクション
コンテキストインジェクションとは、ユーザーのクエリと一緒にあなたのナレッジベースから追加の関連情報をGPT-4に提供する技術です。これにより、モデルの応答が誘導され、精度、関連性、特異性が向上します。すべてのプロンプトの最初にナレッジベース全体を置くのは高価で不便ですが、ChatGPTなどのLLMベースのアプリケーションがアクセスできるようにしたいナレッジのデータベースを作成することが可能です。そのデータベースを使用して、裏側でプロンプトをエンジニアリングするのに役立ちます。この技術には2つの特定の利点があります:(1)プロンプトが常に効率的に書かれ、(2)データが常に最新であることです。

では、OpenAIのGPT-3またはGPT-4に自分自身のデータを埋め込むプロセスを説明していきましょう。

データ収集 最初に行うべきことは、AIが学習する情報を収集することです。これには、内部文書、顧客とのやり取り、製品情報、業界固有の知識などが含まれます。また、ウェブから必要な情報をスクレイピングすることもできます。この段階でデータのプライバシーやセキュリティに配慮することが重要です。機密情報が適切に処理され、関連する規制に準拠していることを確認する必要があります。

データの前処理 データをGPT-4に埋め込む前に、テキストを正規化し、不要な情報を削除し、欠損データを処理して、AIモデルとの互換性を確保する必要があります。また、データをトークン化し、GPT-4に適した形式に変換する必要があります。これを正しいインデックスの設定と呼ぶこともあります。

(技術者向け補足:私はPostgreSQLのpgvector拡張機能を使ってこの演習を行いました。ベクトルというデータ型があり、カラムに埋め込みを格納するのに最適です。これにより、プロプライエタリナレッジベース全体のベクトルを事前生成して保存することが簡単になります。そして、pgvectorを使用して、cosine類似度、ドット積、またはユークリッド距離を使用して類似性を計算します。OpenAIのAPIを使用する場合、生成される埋め込みは正規化されているため、cosine類似度とドット積はまったく同じ結果を生じます。また、目的に特化したデータベースであるChromaでも同じことができます。)

モデルのトレーニング データが前処理されたら、GPT-4のファインチューニングを行います。ファインチューニングとは、事前にトレーニングされたモデルを特定のデータで更新し、コンテキストをより理解し、より関連性の高い結果を生成することです。モデルとして使用するために、データをトレーニング、検証、テスト用に分割して、モデルのパフォーマンスを監視し、必要に応じて調整することがベストプラクティスです。

LLMとのインターフェース
すべてのデータが前処理され、データベースに保存されたら、OpenAIのAPIとのインターフェースを設定することができます。最初に、クエリをOpenAIのモデレーションツールで実行する必要があります。これはすべてのクエリに必要であり、このサービスは無料です。次に、クエリベクトルをデータベースにマッチングし、プロンプトに挿入するコンテンツを取得します。

価格意識の高い場合は、このインタラクションに必要なトークン数を計算し(可能な場合は制限する)、OpenAIはトークンごとに請求することを覚えておいてください。トークンごとに4〜5つの英単語が目安です。

自動生成されたプロンプト
プロンプトをエンジニアリングする方法はたくさんあります(私たちはプロンプトクラフトのワークショップも提供しています)。しかし、コンテキストインジェクションスキーマを効果的に実行するためには、次のような形式にすることが重要です。

あなたは私たちの会社の陽気でポジティブな従業員です。以下のナレッジベースのセクションを読んで、提供された情報だけを使用して質問に答えてください。以下のナレッジベースから情報が不十分な場合は、「申し訳ありません。お手伝いできません。」とユーザーに返信してください。
ここにコンテキストインジェクションが入ります。
ユーザーからの質問または入力がここに入ります。

カスタムGPT-4の統合
最後に、カスタムGPT-4モデルをビジネスアプリケーションに統合する必要があります。これには、カスタマーサポート用のチャットボットとしてデプロイすること、ビジネス用に個別に設計されたコンテンツ(ブログ記事、ソーシャルメディアの更新など)を生成することなど、あなたの組織のニーズに合います。

データをGPT-4に埋め込むプロセスは、困難に見えるかもしれませんが、提供する利益は非常に大きいです。以下は、なぜデータをGPT-4に埋め込むことが努力に値するかを示すいくつかのユースケースです。

強化された顧客サポート:あなたの会社のデータでトレーニングされたGPT-4パワードチャットボットは、顧客の問い合わせにより速く、正確でパーソナライズされた回答を提供できます。 スムーズなコンテンツ生成:GPT-4にデータを埋め込むことで、ビジネス用に特別に設計されたコンテンツ(ブログ記事、ソーシャルメディアの更新など)を生成することができます。 データに基づく意思決定:GPT-4をカスタマイズして、隠れた洞察やトレンドを発見することで、ビジネスのためのより良い戦略的決定を行うことができます。

もちろん、データをGPT-4に埋め込む際には、プライバシーとセキュリティの問題に対処することが非常に重要です。必要な注意を取りながら、カスタムAIモデルの利点を受け取ることができます。以下は、いくつかの重要な考慮事項です。

データ匿名化:GPT-4にデータを統合する前に、個人を特定できる情報(PII)が匿名化されていることを確認してください。これにより、お客様のプライバシーが保護されるだけでなく、GDPR(一般データ保護規則)などのデータ保護規制に準拠することができます。 アクセスコントロール:カスタムGPT-4モデルへのアクセスを許可された人員やアプリケーションに限定してください。堅牢なアクセス制御対策を実装することで、不正アクセスを防止し、データ侵害のリスクを減らすことができます。 継続的なモニタリング:カスタムGPT-4モデルのパフォーマンスを定期的に監視し、偏見やその他の意図しない結果に注意を払ってください。慎重に見て、問題がエスカレートする前に問題を解決することができます。

あなたの会社のデータをGPT-4または他のLLMに埋め込むことで、AIによる効率と効果の新たなレベルが開けます。上記のプロセスに従い、必要なプライバシーとセキュリティの注意を取り、ユニークなビジネスニーズに合わせたカスタムAIソリューションを作成することができます。

より深く掘り下げるには、無料のオンラインコース「Generative AI for Executives」をチェックしてください。そして、AIをビジネスに活用する方法を話し合うことに興味がある場合は、お気軽にお問い合わせください。

著者注:これはスポンサー付きの投稿ではありません。私はこの記事の著者であり、自分の意見を表明しています。私または私の会社は、これに対して報酬を受け取っていません。

シェリー・パルマーについて シェリー・パルマーは、シラキュース大学S.I.ニューハウス公共コミュニケーション学部の上級メディア客員教授、Metacademyの共同創設者であり、The Palmer GroupのCEOを務めています。同社は、Fortune 500の企業が技術、メディア、マーケティングを支援するコンサルティング・プラクティスです。LinkedInの「トップボイス・イン・テクノロジー」として名高く、Good Day New Yorkでテクノロジーとビジネスをカバーし、CNNやCNBCで定期的に解説を行っています。また、人気のビジネスブログを毎日執筆しています。彼は、受賞歴のあるポッドキャストTechstreamの共同ホストであり、最新著書「Blockchain – Cryptocurrency, NFTs & Smart Contracts: An executive guide to the world of decentralized finance」は、Amazonでベストセラー1位を獲得しています。@shellypalmerをフォローするか、shellypalmer.comをご覧ください。

出展 shellypalmer.com 4/9/2023

関連記事

  1. AI

    ChatGPTサーチがついに誕生 by Shelly Palmer

    今日は、メディア業界の誰にとっても大きな日です。今すぐChatGPTを…

  2. Blog

    “オールウェイズ・オン (Always On)” はWeb広告のキーワードとなるか。fMC Toky…

    フェイスブックページのファンへのリーチを保証フェイスブックの新しいテ…

  3. Blog

    ツイッターの世界記録も作ったFIFA女子ワールドカップ決勝

    テレビとツイッターの相性の良さがあらためて浮き彫りに7月18日早朝、…

  4. Blog

    インドのiMedia Brand Summitで感じたこと。

    電気のありがたさをインドで実感インドのゴアで7月5日に開かれたiMe…

  5. Blog

    アドテック九州で感じたことをまとめてみた。

    先週、6月5、6日にデジタルマーケティングカンファレンス「アドテッ…

  6. Blog

    楽天トラベルカンファレンス2017の基調講演をします

    1月19日沖縄よりスタートする全国9会場で行われる楽天新春トラ…

最近の記事 // Recent Blog

会員ログイン // Login

アーカイブ // Archive

  1. Blog

    オウンドメディア新規活用策が続々登場 KDDI、T-SITE、Lideaに見るマ…
  2. AI

    アマゾン版ChatGPT?AI駆動のCodeWhispererとBedrockを…
  3. Blog

    ネット選挙解禁で何が変わるのか?
  4. Blog

    任天堂—DeNA、テレビ朝日—サイバーエージェント、バンダイナムコの著作権開放に…
  5. AI

    マイクロソフトのMicrosoft ChatGPT for Businessがも…
PAGE TOP

江端浩人事務所 -Hiroto Ebata International Office-をもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む