狠狠撸

狠狠撸Share a Scribd company logo
Tech x Marketing meetup #2 2020.06.17
Web Privacy Survival Guide
Presented by Katsunori Kanda @potix2
? 2020 DENTSU DIGITAL Inc. 2
今日のはなし
● 匿名化とは
● After 3rd party cookie
● フィンガープリント
● アンチフィンガープリント
? 2020 DENTSU DIGITAL Inc. 3
とあるアンケートで???
年齢、性別
生年月日、会社名
病状、趣味嗜好氏名
? 2020 DENTSU DIGITAL Inc. 4
氏名は削除されているけど個人が特定できる
A社で、20代、女性って
私しか居ないじゃない!
PROFILE
? 20代
? 女性
? 港区在住
? A社在勤
? お洒落感度高い
? お菓子好き
年代 性別 勤務先
30代 男 A社
30代 女 B社
30代 女 B社
20代 男 A社
30代 女 B社
20代 男 A社
20代 女 A社
アンケート結果(匿名化されてる?)
? 2020 DENTSU DIGITAL Inc. 5
個人識別子の削除 ≠ 匿名化
年齢、性別
生年月日、会社名
病状、趣味嗜好氏名
個人識別子(Explicit Identifiers)
※単独で個人特定が可能
準識別子(Quasi Identifiers)
※組み合わせることで個人特定可能
機微情報
→知られたくない情報
? 2020 DENTSU DIGITAL Inc. 6
匿名化とは再特定リスクを減らすためのデータ加工
生年月日 性別 勤務先
1990/11/28 男 A社
1989/6/10 女 B社
1986/4/15 女 B社
1992/1/2 男 A社
1988/3/3 女 B社
1995/8/4 男 A社
2000/10/10 女 A社
年代 性別 勤務先
30代 女 B社
30代 女 B社
30代 女 B社
20代 男 A社
20代 男 A社
20代 男 A社
「一般化」と「秘匿」という変換で
再特定リスクを減らす
一般化
20代A社勤務の女性は特定可能なので削除
秘匿
元データ 匿名化済みデータ
3-匿名化 =
1グループ
3レコード以上を保証
奥贰叠の世界では???
? 2020 DENTSU DIGITAL Inc. 8
WEBの世界ではクッキーが個人識別子として使われている
UserAgent / DNT
Canvas / Plugins
/ System Fonts
サイト来訪履歴
(購買履歴等)
Cookie /
LocalStorage
個人識別子(Explicit Identifiers)
※単独で個人特定が可能
準識別子(Quasi Identifiers)
※組み合わせることで個人特定可能
機微情報
→知られたくない情報
3rd-Party クッキーはオワコンに???
? 2020 DENTSU DIGITAL Inc. 9
ブラウザーフィンガープリントとはブラウザーから得られる情報からデバイスを識別する技術
特徴によって識別情報をどの程度与えるかが異なる(個人の環境に左右されるので以下は参考情報)
https://panopticlick.eff.org/
ブラウザーから得られる特徴 情報量
User Agent 大
Canvasフィンガープリント 大
フォント 大
IPアドレス 大
言語 中
DNT設定 小
プラグイン 小
など???
下記サイトで
識別可能性を確認できる
? 2020 DENTSU DIGITAL Inc. 10
アンチフィンガープリント技術がWebプライバシー保護には必要という機運が高まっている
課題感は一致しているが、対応状況はブラウザーごとにまちまち
Chrome
UserAgentの廃止: 今年の1月にアナウンスがあって段階的な停止中。2020年9月にリリース予定
のM85で最終段階に。今後は、HTTP Clients Hintsを使う。
https://www.zdnet.com/article/google-to-phase-out-user-agent-strings-in-chrome/
Firefox
Firefox 72 blocks third-party fingerprinting resources: フィンガープリントは有害と断
言している。Disconnect社と提携しフィンガープリント提供会社のリストを取得。
https://blog.mozilla.org/security/2020/01/07/firefox-72-fingerprinting/
Safari
Safari Privacy Overview: アンチフィンガープリント機能は、デフォルトONになっていてユー
ザーが制御できる部分はない。
https://www.apple.com/safari/docs/Safari_White_Paper_Nov_2019.pdf
Mozilla/5.0って誰使ってるの?
? 2020 DENTSU DIGITAL Inc. 11
W3Cによるとフィンガープリントによる被害軽減にはいくつかのレベルがある
● フィンガープリント採取面(Fingerprinting Surface)を減少させる
● 匿名性を高める(標準化、実装の一般化)
● フィンガープリントを検出可能にする
● ローカルの状態をクリアできるようにする
https://w3c.github.io/fingerprinting-guidance/
「Mitigating Browser Fingerprinting in Web Specifications」によると
これらの対策はいずれもプライバシー保護の改善に貢献することがわかっている
? 2020 DENTSU DIGITAL Inc. 12
UserAgentが廃止されると、UserAgent Clients Hintsで必要な情報を取得する必要がある
Client Server
GET: /foo.html
Sec-Ch-UA: "Google Chrome"; v="83"
Accept-CH: UA-Platform, UA-Full-Version
GET: /bar.html
Sec-Ch-UA: "Google Chrome"; v="83"
Sec-Ch-Platform: "Mac OS X"; v="10_14_4"
Sec-Ch-Full-Version: "83.0.4103.106"
初回アクセス時は
最低限の情報のみ
サーバー側で必要な
情報を要求する
要求を受け付けた次の
リクエストから情報を付加
する
chrome://flags から
Experimental Web Platform Features を
有効にすると確認できます
参考: User-Agent Clients Hints Draft Community Group Report, 27 May 2020
https://wicg.github.io/ua-client-hints/
? 2020 DENTSU DIGITAL Inc. 13
まとめ
● 匿名を実現するには
○ 個人識別子の削除だけでは不十分
○ 準識別子の扱いに注意を払う必要がある
● WEBの世界では、クッキー = 個人識別子、ブラウザー情報 = 準識別子
● WEB上でのプライバシー保護のため個人識別子への対策はとられてきた
● これからは、ブラウザーフィンガープリントへの対策が重要になって
きている
○ 各ブラウザーで対策の足並みは揃ってない
○ Http Clients Hintsなどの標準仕様の提案も行われている
? 2020 DENTSU DIGITAL Inc. 14
参照
● [WEB] Mitigating Browser Fingerprinting in Web Specifications
○ https://w3c.github.io/fingerprinting-guidance/
● [WEB] Valve/Fingerprintjs2
○ https://github.com/Valve/fingerprintjs2
● [WEB] Brave - Fingerprinting Protections
○ https://github.com/brave/brave-browser/wiki/Fingerprinting-Protections
● [WEB] User-Agent Client Hints
○ https://wicg.github.io/ua-client-hints
● [WEB] HTTP Client Hints
○ https://httpwg.org/http-extensions/client-hints.html
● [書籍] データ匿名化手法 ―ヘルスデータ事例に学ぶ個人情報保護
○ https://www.amazon.co.jp/dp/4873117240/
? 2020 DENTSU DIGITAL Inc. 15
プライバシー保護データマイニング
世に出回っているあらゆるデータのうち、ビジネス上価値が高いパーソナルデータを
利活用する上でプライバシーを保護するために個人が特定されないために施すデータ
加工
Privacy Preserving Data Mining : PPDM
21世紀に入って発展してきた分野
PPDMの手法の中で「匿名化」がある(その他、攪乱、秘密計算法など)
※パーソナルデータ
個人情報に該当しない可能性のある情報も含めた情報
? 2020 DENTSU DIGITAL Inc. 16
Link Attack
k-匿名性(後述)を提唱した Sweenyによると、マサチューセッツ州知事の医療記録が
公開情報から特定可能であることが実証された。
両方のデータを照合すると、 6名が知事と同じ生年月日、うち 3名が男、うち1名が同じ郵便番号。
? 来院日
? 診断内
容
? 処方薬
? 支払額
? 名前
? 政党
? 投票
歴
? 郵便番
号
? 生年月
日
? 性別
病院記
録
選挙人名
簿
? 2020 DENTSU DIGITAL Inc. 17
k-匿名性(k-anonymity)
生年月日 性別
1990/11/28 男
1989/6/10 女
1986/4/15 女
1992/1/2 男
1988/3/3 女
1995/8/4 女
1960/10/10 男
生年月日 性別
80年代 女
80年代 女
80年代 女
90年代 人
90年代 人
90年代 人
Latanya Sweeney氏が提唱
匿名化手法のひとつ
同様の属性を持つ人を k人以上存在するように加工す
る
具体的には
?準識別子の抽象度を上げる(一般化)
?特異なデータ項目は削除(抑制)
×削除(抑制)
1グループ3レコード以上を保証
=3?匿名化されたデータ
? 2020 DENTSU DIGITAL Inc. 18
k-匿名性の問題点
生年月日 郵便番号 性別 趣味嗜好
80年代 105-* 女 お菓子好き
80年代 105-* 女 お洒落好き
80年代 105-* 女 お洒落好き
90年代 105-* 人 自動車好き
90年代 105-* 人 自動車好き
90年代 105-* 人 お洒落好き
趣味嗜好など機微情報を含めて考えたときに、各グループ内で偏りが出ると、
特殊な趣味の場合、やはり個人が特定されやすい。
グループ内では少数の趣
味
? 2020 DENTSU DIGITAL Inc. 19
識別と特定の違い
匿名化された情報とは
? 一人のデータである事は識別出来たが、個人まで特定出来ない情報(識別非特定情報)
? 一人であることも分からないし、個人とも特定出来ない状態(非識別非特定情報)
=識別出来なければ特定は出来ない
識別性
特定性
あるデータが、ある一人のデータであること判断出来るかどうか
例)ある一名であると判断出来ると、「識別可能」と呼ぶ
あるデータが、誰のデータであることを判断出来るかどうか
例)一名とは限らない個人が特定出来ると、「特定可能」と呼ぶ

More Related Content

Web Privacy Survival Guide

  • 1. Tech x Marketing meetup #2 2020.06.17 Web Privacy Survival Guide Presented by Katsunori Kanda @potix2
  • 2. ? 2020 DENTSU DIGITAL Inc. 2 今日のはなし ● 匿名化とは ● After 3rd party cookie ● フィンガープリント ● アンチフィンガープリント
  • 3. ? 2020 DENTSU DIGITAL Inc. 3 とあるアンケートで??? 年齢、性別 生年月日、会社名 病状、趣味嗜好氏名
  • 4. ? 2020 DENTSU DIGITAL Inc. 4 氏名は削除されているけど個人が特定できる A社で、20代、女性って 私しか居ないじゃない! PROFILE ? 20代 ? 女性 ? 港区在住 ? A社在勤 ? お洒落感度高い ? お菓子好き 年代 性別 勤務先 30代 男 A社 30代 女 B社 30代 女 B社 20代 男 A社 30代 女 B社 20代 男 A社 20代 女 A社 アンケート結果(匿名化されてる?)
  • 5. ? 2020 DENTSU DIGITAL Inc. 5 個人識別子の削除 ≠ 匿名化 年齢、性別 生年月日、会社名 病状、趣味嗜好氏名 個人識別子(Explicit Identifiers) ※単独で個人特定が可能 準識別子(Quasi Identifiers) ※組み合わせることで個人特定可能 機微情報 →知られたくない情報
  • 6. ? 2020 DENTSU DIGITAL Inc. 6 匿名化とは再特定リスクを減らすためのデータ加工 生年月日 性別 勤務先 1990/11/28 男 A社 1989/6/10 女 B社 1986/4/15 女 B社 1992/1/2 男 A社 1988/3/3 女 B社 1995/8/4 男 A社 2000/10/10 女 A社 年代 性別 勤務先 30代 女 B社 30代 女 B社 30代 女 B社 20代 男 A社 20代 男 A社 20代 男 A社 「一般化」と「秘匿」という変換で 再特定リスクを減らす 一般化 20代A社勤務の女性は特定可能なので削除 秘匿 元データ 匿名化済みデータ 3-匿名化 = 1グループ 3レコード以上を保証
  • 8. ? 2020 DENTSU DIGITAL Inc. 8 WEBの世界ではクッキーが個人識別子として使われている UserAgent / DNT Canvas / Plugins / System Fonts サイト来訪履歴 (購買履歴等) Cookie / LocalStorage 個人識別子(Explicit Identifiers) ※単独で個人特定が可能 準識別子(Quasi Identifiers) ※組み合わせることで個人特定可能 機微情報 →知られたくない情報 3rd-Party クッキーはオワコンに???
  • 9. ? 2020 DENTSU DIGITAL Inc. 9 ブラウザーフィンガープリントとはブラウザーから得られる情報からデバイスを識別する技術 特徴によって識別情報をどの程度与えるかが異なる(個人の環境に左右されるので以下は参考情報) https://panopticlick.eff.org/ ブラウザーから得られる特徴 情報量 User Agent 大 Canvasフィンガープリント 大 フォント 大 IPアドレス 大 言語 中 DNT設定 小 プラグイン 小 など??? 下記サイトで 識別可能性を確認できる
  • 10. ? 2020 DENTSU DIGITAL Inc. 10 アンチフィンガープリント技術がWebプライバシー保護には必要という機運が高まっている 課題感は一致しているが、対応状況はブラウザーごとにまちまち Chrome UserAgentの廃止: 今年の1月にアナウンスがあって段階的な停止中。2020年9月にリリース予定 のM85で最終段階に。今後は、HTTP Clients Hintsを使う。 https://www.zdnet.com/article/google-to-phase-out-user-agent-strings-in-chrome/ Firefox Firefox 72 blocks third-party fingerprinting resources: フィンガープリントは有害と断 言している。Disconnect社と提携しフィンガープリント提供会社のリストを取得。 https://blog.mozilla.org/security/2020/01/07/firefox-72-fingerprinting/ Safari Safari Privacy Overview: アンチフィンガープリント機能は、デフォルトONになっていてユー ザーが制御できる部分はない。 https://www.apple.com/safari/docs/Safari_White_Paper_Nov_2019.pdf Mozilla/5.0って誰使ってるの?
  • 11. ? 2020 DENTSU DIGITAL Inc. 11 W3Cによるとフィンガープリントによる被害軽減にはいくつかのレベルがある ● フィンガープリント採取面(Fingerprinting Surface)を減少させる ● 匿名性を高める(標準化、実装の一般化) ● フィンガープリントを検出可能にする ● ローカルの状態をクリアできるようにする https://w3c.github.io/fingerprinting-guidance/ 「Mitigating Browser Fingerprinting in Web Specifications」によると これらの対策はいずれもプライバシー保護の改善に貢献することがわかっている
  • 12. ? 2020 DENTSU DIGITAL Inc. 12 UserAgentが廃止されると、UserAgent Clients Hintsで必要な情報を取得する必要がある Client Server GET: /foo.html Sec-Ch-UA: "Google Chrome"; v="83" Accept-CH: UA-Platform, UA-Full-Version GET: /bar.html Sec-Ch-UA: "Google Chrome"; v="83" Sec-Ch-Platform: "Mac OS X"; v="10_14_4" Sec-Ch-Full-Version: "83.0.4103.106" 初回アクセス時は 最低限の情報のみ サーバー側で必要な 情報を要求する 要求を受け付けた次の リクエストから情報を付加 する chrome://flags から Experimental Web Platform Features を 有効にすると確認できます 参考: User-Agent Clients Hints Draft Community Group Report, 27 May 2020 https://wicg.github.io/ua-client-hints/
  • 13. ? 2020 DENTSU DIGITAL Inc. 13 まとめ ● 匿名を実現するには ○ 個人識別子の削除だけでは不十分 ○ 準識別子の扱いに注意を払う必要がある ● WEBの世界では、クッキー = 個人識別子、ブラウザー情報 = 準識別子 ● WEB上でのプライバシー保護のため個人識別子への対策はとられてきた ● これからは、ブラウザーフィンガープリントへの対策が重要になって きている ○ 各ブラウザーで対策の足並みは揃ってない ○ Http Clients Hintsなどの標準仕様の提案も行われている
  • 14. ? 2020 DENTSU DIGITAL Inc. 14 参照 ● [WEB] Mitigating Browser Fingerprinting in Web Specifications ○ https://w3c.github.io/fingerprinting-guidance/ ● [WEB] Valve/Fingerprintjs2 ○ https://github.com/Valve/fingerprintjs2 ● [WEB] Brave - Fingerprinting Protections ○ https://github.com/brave/brave-browser/wiki/Fingerprinting-Protections ● [WEB] User-Agent Client Hints ○ https://wicg.github.io/ua-client-hints ● [WEB] HTTP Client Hints ○ https://httpwg.org/http-extensions/client-hints.html ● [書籍] データ匿名化手法 ―ヘルスデータ事例に学ぶ個人情報保護 ○ https://www.amazon.co.jp/dp/4873117240/
  • 15. ? 2020 DENTSU DIGITAL Inc. 15 プライバシー保護データマイニング 世に出回っているあらゆるデータのうち、ビジネス上価値が高いパーソナルデータを 利活用する上でプライバシーを保護するために個人が特定されないために施すデータ 加工 Privacy Preserving Data Mining : PPDM 21世紀に入って発展してきた分野 PPDMの手法の中で「匿名化」がある(その他、攪乱、秘密計算法など) ※パーソナルデータ 個人情報に該当しない可能性のある情報も含めた情報
  • 16. ? 2020 DENTSU DIGITAL Inc. 16 Link Attack k-匿名性(後述)を提唱した Sweenyによると、マサチューセッツ州知事の医療記録が 公開情報から特定可能であることが実証された。 両方のデータを照合すると、 6名が知事と同じ生年月日、うち 3名が男、うち1名が同じ郵便番号。 ? 来院日 ? 診断内 容 ? 処方薬 ? 支払額 ? 名前 ? 政党 ? 投票 歴 ? 郵便番 号 ? 生年月 日 ? 性別 病院記 録 選挙人名 簿
  • 17. ? 2020 DENTSU DIGITAL Inc. 17 k-匿名性(k-anonymity) 生年月日 性別 1990/11/28 男 1989/6/10 女 1986/4/15 女 1992/1/2 男 1988/3/3 女 1995/8/4 女 1960/10/10 男 生年月日 性別 80年代 女 80年代 女 80年代 女 90年代 人 90年代 人 90年代 人 Latanya Sweeney氏が提唱 匿名化手法のひとつ 同様の属性を持つ人を k人以上存在するように加工す る 具体的には ?準識別子の抽象度を上げる(一般化) ?特異なデータ項目は削除(抑制) ×削除(抑制) 1グループ3レコード以上を保証 =3?匿名化されたデータ
  • 18. ? 2020 DENTSU DIGITAL Inc. 18 k-匿名性の問題点 生年月日 郵便番号 性別 趣味嗜好 80年代 105-* 女 お菓子好き 80年代 105-* 女 お洒落好き 80年代 105-* 女 お洒落好き 90年代 105-* 人 自動車好き 90年代 105-* 人 自動車好き 90年代 105-* 人 お洒落好き 趣味嗜好など機微情報を含めて考えたときに、各グループ内で偏りが出ると、 特殊な趣味の場合、やはり個人が特定されやすい。 グループ内では少数の趣 味
  • 19. ? 2020 DENTSU DIGITAL Inc. 19 識別と特定の違い 匿名化された情報とは ? 一人のデータである事は識別出来たが、個人まで特定出来ない情報(識別非特定情報) ? 一人であることも分からないし、個人とも特定出来ない状態(非識別非特定情報) =識別出来なければ特定は出来ない 識別性 特定性 あるデータが、ある一人のデータであること判断出来るかどうか 例)ある一名であると判断出来ると、「識別可能」と呼ぶ あるデータが、誰のデータであることを判断出来るかどうか 例)一名とは限らない個人が特定出来ると、「特定可能」と呼ぶ