mercan

メルカリの画像推薦技術は、なぜ世界トップカンファレンスに認められたのか?

2025-10-28

メルカリの画像推薦技術は、なぜ世界トップカンファレンスに認められたのか?

Share

  • X
  • Facebook
  • LinkedIn

メルカリの「見た目が近い商品」を推薦する機能。その改善プロジェクトに関する論文が、推薦システム分野における世界最高峰の国際学会「RecSys 2025」の口頭発表に選出されました。採択率わずか10.1%という狭き門を突破したこの快挙は、メルカリのAI技術が世界トップレベルであることを証明するもの。

この成果は、決して一朝一夕に生まれたものではありません。当初2名のエンジニアによる迅速な初期開発から始まった機能開発が、次のチームへと受け継がれ、改善が重ねられた末、世界的な評価へと繋がったのです。

本記事では、プロジェクトに関わった5名のメンバーにインタビューを実施。初代機能の開発秘話から改善プロジェクトの挑戦、そして論文が国際学会で脚光を浴びるまでの道のりを辿りつつ、チームを超えて価値を作り出す、メルカリのエンジニアリングのカルチャーに迫ります。

この記事に登場する人

  • 紫藤 佑介 (@shido)

    2019年入社。大学で計算機科学・機械学習を専攻した後、新卒でメルカリへ入社。TnS領域でMLエンジニアとして違反商品検知などに携わり、テックリードを務める。その後「メルカリ」のリコメンデーションシステムのロジック改善に従事し、 初代「見た目が近い商品」機能のベースライン実装を担当。

  • 上野 湧太 (@wakit)

    2022年入社。BtoC商品の推薦や検索の機能開発を担当した後、現在はメルカリに移動し、レコメンデーションチームにてホーム画面や商品詳細画面での体験向上に取り組んでいる。初代「見た目が近い商品」機能開発においてPMとエンジニアリングを兼任。

  • 矢田 宙生 (@arr0w)

    2024年4月にML Engineerとしてメルカリに新卒入社。学生時代は機械学習の応用に関する研究や、フロントエンドやMLのエンジニアとして複数社でのインターンを経験。メルカリのAI専任チームであるElizaやメルカリハロのMLエンジニアを経て、現在はレコメンデーションチームにてML Engineerを務める。機能改善プロジェクトでは、主にモデル周りの実装・評価を担当。

  • 秋山 翔 (@akiyamasho)

    MLやフルスタックエンジニア、モバイルアプリケーションエンジニアなどの職種を経て2024年2月、メルカリに入社。メルカリのAI専任チームであるElizaのML/フルスタックエンジニアとして機能改善プロジェクトのTech Leadを務め、開発全体を牽引した。その後、現在はEMとして活躍。

  • 渡邊 諒 (@naberyo)

    2024年4月にML Engineerとしてメルカリに入社。学生時代は画像生成に関する研究に取り組む。メルカリでのインターンを経てレコメンデーションチームに新卒入社。AI/ML Engineer。A/Bテストの実装・モニタリングを担当し、論文執筆にも貢献。

始まりは「2週間でリリース」。少数精鋭で生み出した初代機能

——はじめに、初代「見た目が近い商品」機能が開発された経緯について教えてください。どのような課題があったのでしょうか?@wakit:当時、アイテム詳細ページの推薦機能は、ホーム画面などと比較してあまり積極的な開発が行われておらず、改善の余地が大きい領域でした。しかし、そのイニシアチブを持つ人がいなかったんです。そこで私が他社アプリのリサーチなども含めて改善案を検討し、「画像を基に似ている商品を推薦する」という、当時のメルカリアプリにはなかった新しい体験を提供する機能を実装することを決めました。

——開発当時、特に大変だったことは何ですか?

@wakit:とにかくリソースが限られていたことですね。OKR(Objectives and Key Results/目標と主要な成果の略称)では「2〜3週間でリリース」という非常にタイトなスケジュールが設定されており、私と @shido さんのほぼ2名で開発を進めなければなりませんでした。

@shido:工期は本当に短かったですね。ただ、幸運だったのは技術の進化です。2018年にも一度、画像検索機能を担当したことがあるのですが、その時は多くのエンジニアが半年ほどの期間をかけて開発していました。しかし、2024年には、GCP(Google Cloud Platform)などのクラウドサービスが充実しており、画像検索のシステムをはるかに作りやすくなっていました。そのおかげで、短期間での実装が可能でした。

@wakit:素早い開発はもちろん、安定した結果を出せること、そして学習やサービング(システム提供)のコストを抑えることは特に意識して実装していきした。

——リリース後の成果や反響はいかがでしたか?

@shido:成果は非常に大きく、推薦経由の購入率が約150%も改善しました。これまでテキスト情報だけでは拾いきれなかった「カテゴリは違うけれど、見た目の雰囲気が似ている」といった商品を推薦できるようになったことで、お客さまに新しい発見を提供できたのだと思います。

@wakit:反響としても、SNSで好意的な反応が多く見受けられ、メルカリでこれまで提供できていなかった新しい体験を届けられたと実感しました。

次のチームへ渡された改善のバトン

——初代機能のリリースから間もなく、改善プロジェクトが始動します。どのような経緯だったのでしょうか?

@arr0w:当時、私と @akiyamasho さんが所属していたElizaチーム(AI/LLM推進を担うチーム)は次の大きな挑戦を探していました。そんな時、Slackチャンネルで @shido さんたちが初代機能の実装と成果を発表しているのを見たんです。「これだ!」と思いました。というのも、ちょうど画像検索関連でA/Bテストができないか模索していた時期だったので、すぐに私と @akiyamasho さんで @shido さんたちに「ぜひA/Bテストをやらせてください」とお願いしに行きました。

@akiyamasho:私たちも、Searchチームと協力してモデルのファインチューニング(追加学習による性能向上)を進めようとしていたのですが、具体的なユースケースがまだ見つかっていませんでした。そんな時にこの機能を見て、絶好の活用先だと確信したんです。

@wakit:初代の開発に関わっていたのが少人数だったこともあり、情報連携もスムーズで、すぐに改善プロジェクトに移行できたのは良かったですね。技術の進化と、こうしたチーム間の迅速な連携がうまく噛み合った結果だと思います。

改善確度を高めたオフライン評価

——ではelizaチームに引き継がれた後の改善プロジェクトでは、技術的にどのような挑戦があったのでしょうか?@arr0w:初代で使われていた「MobileNet」というモデルは、低コストで動作する軽量さが魅力でした。shidoさんたちの初代機能は、A/Bテストで画像推薦の有効性が証明されたので、私たちは「もっと性能の高いモデルを使えば、さらに大きな改善が見込めるのではないか」と考えました。そこで、より新しく高性能な「SigLIP」というモデルを採用し、2つのモデルを比較するA/Bテストを実施することにしました。

——プロジェクトを進める上で、特に重要だったポイントはありますか?

@akiyamasho:初代機能がリリースされていたおかげで、お客さまのタップログがすでに蓄積されていたことが非常に大きかったです。

——タップログがあったことで、どうした検証が可能になったのでしょうか?

@naberyo:「オフライン評価」が実施できました。これは、実際のA/Bテスト(オンライン評価)を行う前に、過去のログデータを使ってモデルの精度を擬似的に検証する手法です。初代チームがログをしっかり取得する仕組みを実装してくれていたおかげで、私たちは事前に「SigLIPのモデルなら、これくらいの成果が出そうだ」という高い確信を持ってA/Bテストに臨むことができました。

@shido:(初代開発時)ログを仕込んでおいて本当に良かったです(笑)。

——改善版の成果はいかがでしたか?

@naberyo:タップ率が約50%、購入率も約14%向上するという、期待を上回る素晴らしい結果が出ました。

メルカリの強みは約2,300万のMAU。実サービスでの成果を武器に学会発表へ

——素晴らしい成果ですね。それを、なぜ「論文」として発表しようと考えたのでしょうか?

@arr0w:私たちが採用した「SigLIP」は、当時まだ新しく、本番環境に導入している先行研究や事例がほとんどありませんでした。また、画像と言語の両方を扱える「Vision-Language Model」は学術界でも注目されている分野です。これをメルカリのような大規模サービスの本番環境で検証したという事実は、他にないユニークな知見であり、論文として発表する価値があると考えました。

@naberyo:まずは国内の画像認識・理解技術分野の学会「MIRU」に投稿し、自分たちの論文がアカデミックな場でどう評価されるかを試すことにしました。MIRUは研究者や学生の発表が多いため、査読(専門家による審査)のある口頭発表に挑戦し、RecSysに向けたフィードバックも得られればと考えたんです。

——MIRUでの評価はどうでしたか?

@naberyo:MIRUの査読では、手法のアイデア自体は既存のものであり新規性に乏しい、といった厳しい指摘も受けました。しかし、その一方で、オンライン評価の実験クオリティは一定の水準にあるという手応えも得られました。

@arr0w:査読結果は的を得ていたと思いますし、MIRUに向けた執筆期間は正直タイトで、1ヶ月弱と短く、ダメ元だったのですが、無事採択された時は本当に驚きましたね。

——その経験を経て、いよいよRecSysへの挑戦をされたのですね。

@shido:RecSysは、推薦システム分野における世界最高峰の国際学会ですが、アカデミックな成果だけではなく、よりビジネスの現場での応用を重視する「インダストリアルトラック」を設けています。MIRUでのフィードバックを踏まえ、「MAU(月間アクティブユーザー)が約2,300万人いるサービスで大規模なA/Bテストを実施した」という、自分たちの最大の強みを押し出す戦略に切り替えました。@arr0w:学術研究の多くは、公開データセットを使ったオフライン評価か、実施できたとしても小規模なユーザーテストに留まります。メルカリのビジネスの規模感で、実際のプロダクトに新技術を導入し、その効果を定量的に示した研究は、世界的に見ても非常に稀です。この点が、RecSysの査読者から高く評価されたのだと思います。実際、査読者全員から最高評価をいただき、口頭発表に選ばれた時は本当に嬉しかったですね。

——世界のビックテック企業も集まる場だったと思いますが、実際の学会の雰囲気はいかがでしたか?

@naberyo:やはり、各社とも新規性の高い実装に取り組んでいると感じました。特に、LLM(大規模言語モデル)やLLMエージェントといったトピックは大きな潮流になっていましたね。

@arr0w:どのセッションを見てもタイトルに「LLM」という単語が入っているほどで、特に生成AIに関するワークショップは満員で入れないほどの盛況ぶりでした。

@wakit:現場のエンジニアだけでなく、マネジメント層が技術トレンドをキャッチするために参加しているケースも多く、業界全体の熱量の高さを感じました。その中で、私たちの発表は少し毛色が異なっており、流行りのLLMではなく、画像推薦という地に足のついたテーマで、かつ「MAU約2,300万人」というスケールでの実用化と成果を示していました。この点が逆に新鮮に映ったようで、ポスターセッションでは様々な企業のエンジニアたちが質問に来てくれ 「自分たちの国でも同じような課題がある」「どうやって改善したのか」と、同じ分野で日々試行錯誤するエンジニア同士、熱い議論ができました。

メルカリはエンジニアにとって最高の実験の場

——最後に、この記事を読んでいるエンジニアや学生の方々へメッセージをお願いします。

@naberyo:メルカリには、自分のアイデアをすぐに試せる土壌があります。MAU約2,300万人という大きなプロダクトがあり、それを支える豊富なデータと技術、そして何よりユーザーの多さが、エンジニアにとって最高の環境だと思います。

@wakit:エンジニアの裁量が大きいのは本当に魅力ですね。メルカリは大きな企業ですが、同時にスタートアップ的なスピーディーな意思決定を歓迎するカルチャーもあり、実装したいアイディアがあれば、承認プロセスに時間を費やすことなく開発を進めることができます。また、学術の世界はスピードが命ですが、メルカリでなら先行研究がないような新しい挑戦も可能です。自分が好きなプロダクトを、自分の手で良くしていく喜びも感じられます。

@arr0w:社内には論文執筆など、アカデミックな活動へのモチベーションが高いメンバーが多く、マネジメント層もそうした活動を正当に評価し、後押ししてくれる文化があります。

@shido:機械学習の研究はPCの中で完結してしまうことも少なくありませんが、メルカリでは、自分の研究成果が2,000万人のお客さまの体験に直接繋がり、ビジネスに大きなインパクトを与えることができます。これほどエキサイティングな環境は、他にはなかなかないのではないでしょうか。

撮影:タケシタ トモヒロ

Share

  • X
  • Facebook
  • LinkedIn

Unleash the
potential
in all people

メルカリで働きたい!
という人は採用サイトもご覧ください

Join us !