12 月 4 日に Webmaster's Home が報告したように、Microsoft の研究者は、特に高度なプロンプト エンジニアリング技術と組み合わせた場合に、医療知識テストにおける GPT-4 の優れたパフォーマンスを実証し、専門的に調整された MedPaLM2 を凌駕しました。 この結果は、より効果的なプロンプトエンジニアリングを主流の一般モデルに適用する方が、時間と手間のかかるチューニングやモデルトレーニングよりも、より正確な結果を得るためのより良い方法である可能性があることを示しています。 Med_手法では、GPT-4が生成した思考連鎖推論や、個別に採点された複数の応答を生成し、最高得点の回答をユーザーに返すなど、さまざまなプロンプトエンジニアリング手法を採用しています。 このアプローチでは、より多くのマーカーが生成されるため、推論のコストが増加しますが、この結果は、GPT-4などの主要な汎用モデルと高度なプロンプトエンジニアリング技術を組み合わせて、最先端のパフォーマンスの基準を評価することを検討する価値があることを示唆しています。 この研究は、GPT-4が生成した思考の連鎖的推論は、より洗練されたステップバイステップの推論ロジックを提供するため、専門家が作成したMed-PaLM2プロンプトよりも優れていることを強調しています。 しかし、この研究では、この結論はGPT-4に固有のものであり、他の一般的な基礎となるモデルには当てはまらないことも指摘しています。