既存の OpenAI エコシステムにワンクリックで簡単に統合できます。
DeepSeek API 呼び出しをサポートし、AI 推論サービスを簡単に利用できます。
AI 推論サービスとは、訓練済みの AI モデルを使用して入力データに対して予測や決定を行うプロセスを指します。推論フェーズでは、モデルは新しい知識を学習する必要はなく、既存の知識を使用して実際の問題を解決することに焦点を当てています。例えば、画像をアップロードすると、AI 推論サービスは画像内のオブジェクトや顔を認識できます。音声を入力すると、テキストに変換できます。テキストを入力すると、その感情を分析したり返信を生成したりできます。AI 推論サービスの主な目標は、結果の正確性と安定性を確保しながら、モデルを実際のシナリオに効率的かつ迅速に適用することです。
AI 推論サービスと AI トレーニングの違いは主に以下の点に反映されています:
目的の違い:AI 推論サービスは、訓練済みのモデルを使用して入力データに対して予測や決定を行うことを目的としていますが、AI トレーニングは大量のデータと計算リソースを通じて新しいモデルを訓練することを目的としています。
データ依存性:推論サービスは事前訓練されたモデルに依存していますが、トレーニングには大量のデータと計算リソースが必要です。
アプリケーションシナリオ:推論サービスは通常、既存のデータを処理するために使用されますが、トレーニングは新しいモデルを生成するために使用されます。
コスト:推論サービスは通常、多くの計算リソースを必要としないため、トレーニングよりもコストが低くなります。
レイテンシー:レイテンシーとは、入力データを AI 推論サービスに送信してから結果を受け取るまでの時間を指します。例えば、ユーザーが認識のために画像をアップロードする場合、アップロード完了から認識結果を受け取るまでの時間がレイテンシーです。レイテンシーは通常ミリ秒(ms)単位で測定され、低レイテンシーは自動運転や音声アシスタントなど多くのリアルタイムアプリケーションの重要な要件です。
スループット:スループットとは、AI 推論サービスが単位時間あたりに処理できるリクエスト数を指します。例えば、サービスが 1 秒あたり 100 の画像認識タスクを処理できる場合、そのスループットは 100 QPS(Queries Per Second)です。高スループットは、レコメンデーションシステムやバッチデータ処理など、大量のリクエストを処理する必要があるシナリオに適しています。
レイテンシーとスループットの関係:通常、レイテンシーを減らすとスループットが犠牲になる場合があり、その逆も同様です。したがって、AI 推論サービスを設計する際には、特定のシナリオに基づいてこれら 2 つの要件のバランスを取る必要があります。
データ暗号化:データ送信および保存中に暗号化技術(SSL/TLS プロトコルなど)を使用して、データが盗まれたり改ざんされたりしないようにします。
モデル保護:モデルが悪意を持って複製されたり、リバースエンジニアリングされたりするのを防ぎます。モデル暗号化、難読化、または専用ハードウェア(Trusted Execution Environment TEE など)を使用してモデルを保護できます。
アクセス制御:認証(API キー、OAuth など)と権限管理を通じて、認可されたユーザーまたはシステムのみが AI 推論サービスにアクセスできるようにします。
入力および出力の検証:入力データの有効性をチェックして、悪意のある入力(敵対的サンプル攻撃など)がモデルに誤った結果を出力させるのを防ぎます。同時に、出力結果をフィルタリングして機密情報の漏洩を避けます。
ログ記録とモニタリング:サービスの操作ログを記録し、異常な動作(高頻度のリクエスト、異常な入力など)をリアルタイムでモニタリングし、潜在的なセキュリティ脅威を迅速に発見して対応します。
プライバシー保護:ユーザーのプライバシーに関わるデータ(医療画像、個人識別情報など)については、連合学習や差分プライバシー技術を使用して、推論プロセス中にデータが漏洩しないようにすることができます。