互联网的设计并未考虑到安全性。
许多最新协议(如加密DNS和HTTPS)加密了Web架构的关键部分,否则窃听者可利用这些部分来推断用户的数据。但加密可能不一定能保证隐私,特别是在元数据方面。
诸如DNS-over-HTTPS(DoH)或加密服务器名称指示(ESNI)等新兴标准可以保护DNS查询和TLS SNI扩展的内容。但是,通过简单地查看源自用户设备的流量的目标IP地址,可能仍然可以确定用户正在访问哪些网站,这些地址作为TLS握手的ClientHello的一部分可见。
该元数据可被多个代理利用和货币化,以分析和定向用户以进行广告。
搜索页面加载指纹
我们在伊利诺伊大学进行了一项测量研究,以了解对手是否可以使用仅来自用户设备的一组IP地址来推断用户尝试连接的网站。
使用基于Chromium构建的高度可配置的网络爬虫称为MIDA,我们对所有涉及呈现Alexa Top 1 Million中列出的最受欢迎网站的域执行DNS解析。
由于在请求网站时执行了子查询,我们还考虑了从不同Web服务器加载的多个资源。所有这些联系的IP集合称为网站的页面加载指纹(PLF)。
我们采用了对手模型,旨在通过收集各种候选域的前向映射来恢复域信息,然后使用这些答案来推断给定IP的反向映射。
DNS和SNI隐私提供有限的保护
对于我们数据集中的每个IP地址,我们计算了映射到它的匿名集的域数。
我们数据集中的少数IP地址(47.6%)对应于单个域。对于这些域,如果攻击者知道用户可能查找的潜在地址集并且能够对它们执行正向查找,则加密的DNS几乎没有任何好处。大约20%的请求以这种方式唯一识别; 值得注意的是,XMLHttpRequest(XHR)不太可能映射到站点唯一的IP地址,而样式表和图像更有可能。
我们数据集中大约68%的IP对于单个站点是唯一的,并且总共402,524(42.6%)个站点使用至少一个其域映射到站点唯一IP地址的资源。大多数网站(95.7%)都有一个独特的PLF,这表明存在识别用户仅从联系的IP地址列表中访问该网站的风险。
因此,我们得出结论,在网络浏览的背景下,DNS和SNI隐私提供有限的保护,以防止知道用户可能访问的合理网站集的对手(即使集合非常大),以及谁执行正向查找以推断与给定IP地址关联的域名和站点。
现实世界的推论与我们的封闭世界假设略有不同,因为对手可以使用更广泛的数据集。在我们的研究中看似独特的PLF签名实际上可能属于两个不同的网站; 它是乐观的,但我们已经确定了与唯一域映射的IP地址,这些地址可能用于唯一地描述网站。
我们确定了内容分发网络(CDN)通过将更多域合并到同一IP地址来提供额外保护的重要机会。HTTP / 2连接合并可以抑制来自页面加载跟踪的连接,并有助于提高用户隐私。