広告配信精度とプライバシー保護に関する法律と技術のまとめ

assorted billboards Business
Photo by Marcus Herzberg on Pexels.com

2022年5月に社内でLTした内容をまとめておきます。きっかけはGoogleのFLoCを調べていたら、FLoCを取り巻く歴史などの情報がまとまっていなかったのでまとめていました。

背景

プライバシーを守るための法律が制定されつつあります。

  • EU
    • GDPR (General Data Protection Regulation)
    • 2018年5月25日から適用開始
    • Webサイトを見ていると「Cookie取得の同意」のポップアップ表示を見かけると思います。それはGDPRに準拠するためという目的がほとんどです。
  • US
    • COPRA (Consumer Online Privacy Rights Act)
    • 大統領の署名待ち。署名後180日で施行
  • 日本
    • 改正個人情報保護法
    • 3年毎に更新。2022年4月に更新

問題

インターネット上の広告業界にとって、ユーザの個人情報の取得が困難になるので、ディスプレイ広告のターゲティング精度が落ちます。

ユーザにとってはプライバシーが重視される一方、ターゲティングの精度が落ちることになるので関連度の低い広告が表示されるようになります。

根底としては以下の相反する要求があります。

広告ターゲティング精度 VS プライバシー

背景技術の説明

この広告業者がユーザの情報を集めるために使っている技術が3rd party cookieという仕組みです。

1st partyは自分、2nd partyは閲覧しているウェブサイト、3rd partyとは広告配信業者に当たります。

昨今のChromeやEdgeでデフォルトである3rd party cookieが有効になっていると、ユーザはウェブサイトを閲覧しているだけで、ユーザが意図しないところで広告配信業者に情報を共有されてしまっている状態になります。

3rd party cookieによって広告配信業者に情報が渡る流れ

図にすると以下のような流れになります。

  1. ユーザが広告のJavascriptコードが付いている健康器具のウェブサイトを閲覧する。
  2. ブラウザがそのコードを実行して広告配信業者にアクセスし、広告配信業者はcookieを送信する。
  3. 広告配信業者から指示されたcookieをブラウザが保存する。
  4. 別のサイトをユーザが表示する。
  5. 同じ広告配信業者の広告のJavascriptコードが付いているウェブサイトを閲覧する。
  6. 別のサイトにアクセスしている情報と共に広告配信業者へ送信される。
  7. 広告配信業者はユーザがアクセスしたページのアクセス履歴を保存し、そこからユーザに適した広告を配信する。

3rd party cookieが禁止されるとできなくなること

広告配信業者がユーザのアクセス履歴を取れなくなります。

  • 広告配信側
    • アクセスしている人のアクセス履歴などの情報を取得できなくなる
    • ターゲティングできなくなる
    • リタゲできなくなる
  • エンドユーザ
    • 第三者に自分のアクセスログに近いものが保存されなくなる
    • 関連度の低い広告が表示される。

3rd party cookieに対しての各ブラウザの方針

  • 3rd party cookieを無効
    • safari
    • Edge
    • Brave
    • Firefox
  • 3rd party cookieが有効
    • Google Chrome (2023年末に終了すると発表)

Googleが全方面で強い

では、なぜGoogle Chromeだけが3rd party cookieを無効にしていないかというと、Googleは広告配信を行っているので3rd party cookieが無効化されると広告収益が落ちるるからです

Google Chrome以外は広告収益への関連が無いのですぐに3rd party cookieを無効に動きました。

Googleは1st party cookieを埋め込めるようなソリューションや、自分自身のメディアを持っています。

また、Google Analyticsはウェブサイトに1st party cookieを埋め込んで居るのでGoogle Analyticsが裏側で値を突合していたら同じことが物理的には実現できてしまいますができないでしょう。Gmailも同様です。Google社の内部統制を信じるしか無いようなユーザにとっては危うい状態です。

まさに、この危うい状態になるのを防ぐための法律が最初に挙げた法律なのかなとも思います。

YouTubeに関しては、バーティカルなメディアなので自サイトで個人情報を集め、広告配信に利用できます。他社からの広告は期待できませんが、自社のアドネットワークだけで十分収益を得られるのでビジネスへの影響は無いでしょう。

Googleだけが3rd party cookieはいきなり廃止できない

広告配信業者がほぼGoogle一強になっているため、3rd party cookieが問題になります。

もし、広告配信業者が数万社とか存在していたら、個人情報が一箇所に集まるような構図にならないので3rd party cookieを禁止するというところまで行かなかったかもしれません。

よって、Googleは3rd party cookieの廃止には超絶反対の立場ですが、流石に世論はプライバシー保護の流れになっているので対応する必要が出てきます。

3rd party cookieが無くなったらどんな技術を使ってユーザに最適な広告を提供するか?がまさに現在進行系で問題になっていて、3rd party cookieとは別にプライバシーに考慮したターゲティング技術を作ることを行っています。

Googleが取ったアプローチ

Googleが新たに考えた技術がFLoCTopicsの2つになります。タイムライン的には以下のような流れになります。

  • 2021/3/30
    • Google ChromeでFLoC(Federated Learning of Cohorts) を試験運用開始と発表
  • 2022/1/25
    • FLoCの開発を中止し、Topicsの技術テストを年内に行うと発表

次に、FLoCとTopicsの概要を説明します。

FLoC(Federated Learning of Cohorts)

FLoCの最初の部分である、”Federated Learning” の説明をします。

Federated Learningの説明

  • 呼び方: フェデレイテッド・ラーニング、連合学習
  • 抽象度高めの概念
  • 流れ
    • 青丸: 初期モデル構築
    • 多数のエンドクライアントに配布
    • エンドクライアントがモデルを修正
    • エンドクライアントで作ったモデルを集めて集計して初期モデルを再構築
  • ユースケース例: 日本語IMEの予測変換モデル
Federated Learning: Collaborative Machine Learning without Centralized Training Data
Posted by Brendan McMahan and Daniel Ramage, Research Scientists Standard machine learning approaches require centralizing the training data...

Cohortの説明

  • > コーホートとは、共通した因子を持ち、観察対象となる集団のこと。
  • 文脈としてはコホート法のほうが近い。

FLoC(Federated Learning of Cohorts) の説明

  • コホートのフェデレイテッド・ラーニング
    • 訳: 集団ごとにフェデレイテッド・ラーニングを適用する
  • https://wicg.github.io/floc/
    • W3Cの仕様はworking draftの状態.
  • コホート(集団)は興味ごとに生成される。
    • => 自分でコホートのIDとバージョンを取得できる。

W3Cに掲載されている、サンプルコードはこちら。ユーザのコホートのIDを取得するコード。この取得したIDを広告配信業者に送信して、広告配信業者はそれに対して最適な広告を配信する。

FLoCの動作の流れ

FLoCの問題

  • FLoCのデータが個人を特定できる情報と紐付けられる可能性
    • =フィンガープリンティングリスク
  • トライアル中に3万グループが作られたことにより、特徴的な行動をする場合は個人が特定されてしまうぐらいになる。

ユーザのプライバシー保護ができそうな手法だったにも関わらず、実証実験をしてみたら意外とプライバシーが守られなかった手法となってしまいました。

個人的には、Cohortの粒度を調整することでプライバシーの調整できるので技術的には問題は無いと思います。

それより、根底にはCohortを管理しているGoogleのコンプライアンスを信じるしか無い状態になっていることが問題になるのかと思います。

Topicsの説明

FLoCと比較して、Topicsは非常にシンプルです。

Topicsの概要

  • ユーザーの過去3週間の閲覧履歴に基づき、ユーザーが関心を持つ3つのトピックを広告主へ送信
    • ユーザは送信した内容は確認可能
    • ユーザは送信する内容を変更可能

Googleが発表しているプロトタイプのスクリーンショット。

Topicの考察

かなりユーザのプライバシー保護に寄った手法です。

  • 広告配信側
    • ターゲティング精度がかなり低くなる
    • デモグラなどのターゲティングも不可能
    • 「ユーザの情報ではなく、表示する場所に関連した広告が増える」と思う
    • 「DMPが消えることになるのと同義」かなと思う
  • ユーザ側
    • 開示する情報を完全にコントロールできるので安心
    • 興味のない広告が表示されることが多くなる

他の事例

では、プライバシーに考慮したブラウザという謳い文句のBraveはどうやってユーザのプライバシーを保護しながら効率的に広告を配信しているのか疑問に思ったので調べてみました。

An Introduction to Brave’s In-Browser Ads

流れは以下のような図です。

An Introduction to Brave’s In-Browser Ads | Brave Browser
Introduced in April 2019, Brave Ads provide Brave's current 18M monthly active users the choice to opt-in to privacy-preserving advertising.

  1. 広告をBraveの広告配信サーバに登録する
  2. Braveブラウザは全部の広告をダウンロードする
  3. Braveはユーザの興味モデルをブラウザ内で生成する
  4. ユーザが閲覧しているサイトをトリガーとして、ブラウザ内で最適なタイミングと最適な広告を計算して表示する

広告の量が増えたらどうなるんだろうという疑問はありますが自分の情報が外に出ないので安全です。広告の配信に関しては非効率ですし即時性も無いのでちょっと微妙な感じはあります。

やはり両立は難しいです。

余談ですが、私はGoogle ChromeからBraveに半年ほど前に移行しました。

異業種ペルソナマーケティングAI推進協議会

アカデミック分野でもGoogleと同じように研究が進められています。

異業種ペルソナマーケティングAI推進協議会 – Persona AI Consortium

この場合、1st partyのサイトがユーザモデルを作ってそれを共有することでプライバシーに配慮しつつターゲティングの精度をあげようという試みかと思います。

完全に余談ではありますが、私が卒論(18年ほど前)で書いた「ユーザの行動を行動モデルに抽象化して利用する」というアプローチと同じです。

総括

  • アカデミック
    • 普通は研究の世界では世の中の数年〜10年先を行くのが普通だが、プライバシーの分野では現在進行系の社会課題を研究対象としている。
  • 1st party dataを3rd partyがかなり使いづらくなる
    • 例:自社で広告案件を獲得して配信
    • 例:外部には具体的な情報を渡しづらくなるので、マクロなデータを渡す。
    • バーティカルなサービスが重宝されそう。1st party dataを持っている会社が広告配信を行う。YouTubeやTikTokみたいなメディアが強くなりそう。
  • Web3の流れ
    • GAFAMが情報を持ちすぎることで力を持ちすぎる問題に対処するためにも、情報の管理をより個人に持ってくる動きが強まると予想。個人情報を集めて収益化してきたGoogle, Facebookは広告ビジネスが辛い事になりそう。だから、VRに力を入れたり、別のソリューションに力を入れたりしている。
    • 個人情報はローカルまたは暗号化された状態でクラウドに持ち、物理的に自分がコントロールできる状態になるだろう。

コメント

タイトルとURLをコピーしました