Skip to main content

スピーカー

Manoj Kumar

略歴

Manoj Kumar 氏は、豊富な経験を持つプロフェッショナルであり、熟練した技術者でもあります。現在はPlanit社にて、「NextGen Solutions」部門のディレクターを務めています。彼はソフトウェア開発ライフサイクル全般を探求することを好んでおり、特にソフトウェア品質、デジタルトランスフォーメーション(DX)、ヒューマン・コンピュータ・インタラクション(HCI)、そしてクラウドコンピューティングの分野における課題解決に強い関心を持っています。

大企業からフィンテック、さらには初期段階のスタートアップまで、16年以上にわたるキャリアを通じて培われたマノジュの経験は非常に多岐にわたります。特筆すべき点として、彼はSeleniumプロジェクトのコントリビューターであり、同プロジェクトの運営委員会(PLC)の一員も務めています。
また、知識や経験を共有することがコミュニティをより強固なものにすると心から信じており、ACM およびIEEE Computer Societyのメンバー兼ディスティングイッシュド・スピーカー(著名講演者)としても活動しています。これまで15カ国以上で開催されたソフトウェアエンジニアリングやテスティングに関する数多くの国際会議において、基調講演や技術セッションに登壇してきました。
以前はApplitoolsやLambdaTestといったスタートアップに在籍していたほか、ThoughtWorks、Wipro、IAGといった業界をリードする企業において、デジタルトランスフォーメーション・プログラムに携わった経歴も持っています。

プレゼンテーションについて

信じて、なお確認せよ:AIシステムにおける品質エンジニアリング
人工知能(AI)が急速に現実世界のシステムに組み込まれつつある一方で、ソフトウェアのテスト手法はほとんど進化していません。
従来のテストは、「特定の入力に対して、予測可能で正しい出力が得られる」という前提に基づいています。しかし、AIシステムはこの前提を覆します。大規模言語モデル(LLM)やAI駆動のワークフローが生成する回答は確率的なものであり、実行のたびに内容が異なったり、プロンプトやコンテキスト、取得した情報に大きく左右されたりすることがあります。
これはテスターにとって新たな課題となります。正解が一つではなく、複数の回答が許容されうる場合、どのように品質を定義し、システムの挙動を検証すればよいのでしょうか。
本講演では、なぜ従来のテスト手法がAIシステムにおいて通用しにくいのか、そしてクオリティ・エンジニアリングがどのように進化すべきかを探ります。AI支援の開発ツールや、検索技術を用いたRAG(検索拡張生成)システムの事例を交えながら、モデルの挙動、コンテキスト取得、オーケストレーション層における典型的な失敗パターンを検証します。
また、テスターがAIシステムに適用できる実践的な評価手法も紹介します。単一の正解を求める決定論的なアサーション(検証)だけに頼るのではなく、振る舞いに関するメトリクスや、意味的類似度(Semantic Similarity)、グラウンディング・チェック(根拠確認)、BLEU、ROUGEといった「リファレンス(参照データ)に基づく評価手法」を活用することで、回答の品質、一貫性、事実との整合性を測定する方法を学びます。
受講者は、AIシステムをテストするための明確なメンタルモデルと、実際のAI搭載製品にすぐに適用できる具体的な評価手法を習得して持ち帰ることができます。
本講演から得られること
セッション終了時、参加者は以下の内容を理解・習得できます。
なぜ従来のテスト手法がAIシステムに適さないのか
モデル、プロンプト、検索、オーケストレーションの各レイヤーにおける、AIシステムのテスト分類
出力が確率的に変動するシステムのテスト方法と、信頼性を構築するためのエンジニアリング手法
意味的類似度、グラウンディング・チェック、BLEU、ROUGEなどの実践的な評価手法
実際のAIやLLMベースのシステムをテストするための実践的なアプローチ