利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务

地理空间数据是有关地球表面特定位置的数据。它可以代表整个地理区域,也可以代表与地理区域相关的事件。地理空间数据分析在一些行业中受到追捧。它涉及从空间角度理解数据存在的位置以及数据存在的原因。

地理空间数据有两种类型:矢量数据和栅格数据。栅格数据是表示为网格的单元矩阵,主要表示照片和卫星图像。在这篇文章中,我们重点关注矢量数据,它表示为纬度和经度的地理坐标以及连接或包围它们的线和多边形(区域)。矢量数据在获取移动洞察方面有多种用例。用户移动数据就是其中之一,它主要源自使用 GPS 的移动设备的地理位置或使用 SDK 或类似集成的应用程序发布者。出于本文的目的,我们将此数据称为 流动性数据.

这是一个由两部分组成的系列。在第一篇文章中,我们介绍移动数据、其来源以及该数据的典型模式。然后,我们讨论各种使用案例,并探讨如何使用 AWS 服务来清理数据、机器学习 (ML) 如何帮助完成这项工作,以及如何在生成视觉效果和见解时合乎道德地使用数据。第二篇文章本质上更具技术性,并详细介绍了这些步骤以及示例代码。这篇文章没有示例数据集或示例代码,而是介绍了从数据聚合器购买数据后如何使用数据。

您可以使用 Amazon SageMaker 地理空间功能 将移动数据叠加在底图上并提供分层可视化,使协作更加轻松。 GPU 驱动的交互式可视化工具和 Python 笔记本提供了一种无缝方式,可以在单个窗口中探索数百万个数据点并共享见解和结果。

来源和架构

移动数据来源很少。除了 GPS ping 和应用程序发布商之外,还使用其他来源来扩充数据集,例如 Wi-Fi 接入点、通过在移动设备上投放广告获得的出价流数据以及企业放置的特定硬件发射器(例如,在实体店中) )。企业通常很难自己收集这些数据,因此他们可能会从数据聚合商处购买这些数据。数据聚合器从各种来源收集移动数据,对其进行清理、添加噪音,并每天为特定地理区域提供数据。由于数据本身的性质以及获取的难度,这些数据的准确性和质量可能会有很大差异,企业需要通过使用每日活跃用户数、每日总 ping 数等指标来评估和验证这一点。以及每台设备的平均每日 ping 数。下表显示了数据聚合器发送的每日数据源的典型架构。

属性 课程描述
身份证或女佣 设备的移动广告 ID (MAID)(散列)
纬度 设备的纬度
LNG 设备的经度
哈希 设备的 Geohash 位置
设备类型 设备的操作系统 = IDFA 或 GAID
水平精度 GPS水平坐标精度(米)
时间戳 事件的时间戳
ip IP地址
ALT 设备的海拔高度(以米为单位)
速度 设备速度(米/秒)
国家 原产国的 ISO 两位数代码
代表状态的代码
代表城市的代码
邮政编码 可以看到设备 ID 的邮政编码
承运人 设备的载体
设备制造商 设备制造商

用例

移动数据在各个行业都有广泛的应用。以下是一些最常见的用例:

  • 密度指标 – 客流量分析可以与人口密度相结合,以观察活动和对兴趣点 (POI) 的访问。这些指标展示了有多少设备或用户正在主动停止并参与业务,这可以进一步用于站点选择,甚至可以分析事件周围的移动模式(例如,人们在比赛日出行)。为了获得此类见解,传入的原始数据会经过提取、转换和加载 (ETL) 流程,以从连续的设备位置 ping 流中识别活动或参与情况。我们可以通过使用 ML 模型对 ping 进行聚类来识别用户或移动设备所做的停止来分析活动 亚马逊SageMaker.
  • 行程和轨迹 – 设备的每日位置信息可以表示为活动(停止)和行程(移动)的集合。一对活动可以代表它们之间的一次行程,并且通过移动设备在地理空间中追踪行程可以绘制实际轨迹。用户移动的轨迹模式可以带来有趣的见解,例如交通模式、燃料消耗、城市规划等。它还可以提供数据来分析广告牌等广告点的路线,确定最有效的送货路线以优化供应链运营,或分析自然灾害(例如飓风疏散)中的疏散路线。
  • 流域面积分析 - A 集水区 指特定区域吸引访客的地方,这些访​​客可能是客户或潜在客户。零售企业可以使用此信息来确定开设新商店的最佳位置,或者确定两个商店位置是否彼此距离太近且服务区域重叠并妨碍彼此的业务。他们还可以找出实际客户来自哪里,识别经过该区域上班或回家的潜在客户,分析竞争对手的类似访问指标等等。营销技术 (MarTech) 和广告技术 (AdTech) 公司还可以使用此分析来识别靠近品牌商店的受众来优化营销活动,或根据户外广告的效果对商店进行排名。

还有其他几个用例,包括为商业房地产生成位置情报、通过客流量增强卫星图像数据、识别餐馆的送货中心、确定社区疏散可能性、发现大流行期间的人员流动模式等等。

挑战和道德使用

合乎道德地使用移动数据可以带来许多有趣的见解,帮助组织改善运营、进行有效的营销,甚至获得竞争优势。为了合乎道德地利用这些数据,需要遵循几个步骤。

它从数据本身的收集开始。尽管大多数移动数据仍然不包含姓名和地址等个人身份信息 (PII),但数据收集者和聚合者必须征得用户的同意才能收集、使用、存储和共享其数据。需要遵守 GDPR 和 CCPA 等数据隐私法,因为它们使用户能够决定企业如何使用其数据。第一步是朝着合乎道德和负责任的方式使用移动数据的方向迈出的重大一步,但我们还可以做更多的事情。

每个设备都分配有一个散列移动广告 ID (MAID),用于锚定各个 ping。这可以通过使用进一步混淆 亚马逊梅西, Amazon S3 对象 Lambda, 亚马逊领悟,甚至 AWS 胶水工作室 检测 PII 转换。欲了解更多信息,请参阅 使用 AWS 服务检测 PHI 和 PII 数据的常用技术.

除了 PII 之外,还应考虑掩盖用户的家庭位置以及军事基地或礼拜场所等其他敏感地点。

合乎道德使用的最后一步是仅从 Amazon SageMaker 中导出和导出聚合指标。这意味着获取平均人数或游客总数等指标,而不是个人旅行模式;获取每日、每周、每月或每年的趋势;或对人口普查数据等公开数据的流动模式进行索引。

解决方案概述

如前所述,可用于分析移动数据的 AWS 服务包括 Amazon S3、Amazon Macie、AWS Glue、S3 Object Lambda、Amazon Comprehend 和 Amazon SageMaker 地理空间功能。 Amazon SageMaker 地理空间功能使数据科学家和机器学习工程师可以轻松使用地理空间数据构建、训练和部署模型。您可以高效地转换或丰富大规模地理空间数据集,使用预先训练的 ML 模型加速模型构建,并使用 3D 加速图形和内置可视化工具在交互式地图上探索模型预测和地理空间数据。

以下参考架构描述了使用 ML 和地理空间数据的工作流程。

架构图

在此工作流程中,原始数据从各种数据源聚合并存储在 亚马逊简单存储服务 (S3)桶。此 S3 存储桶上使用 Amazon Macie 来识别和编辑 PII。然后使用 AWS Glue 清理原始数据并将其转换为所需的格式,然后将修改和清理后的数据存储在单独的 S3 存储桶中。对于那些无法通过 AWS Glue 进行的数据转换,您可以使用 AWS Lambda 修改和清理原始数据。清理数据后,您可以使用 Amazon SageMaker 在准备好的地理空间数据上构建、训练和部署 ML 模型。您还可以使用 地理空间处理职位 Amazon SageMaker 地理空间功能可预处理数据,例如,使用 Python 函数和 SQL 语句从原始移动数据中识别活动。数据科学家可以通过 Amazon SageMaker 笔记本进行连接来完成此过程。您还可以使用 亚马逊QuickSight 可视化数据中的业务成果和其他重要指标。

Amazon SageMaker 地理空间功能和地理空间处理作业

获取数据并将其每日馈送至 Amazon S3 并清除所有敏感数据后,可以使用以下命令将其导入 Amazon SageMaker: 亚马逊SageMaker Studio 带有地理空间图像的笔记本。以下屏幕截图显示了以 CSV 文件形式上传到 Amazon S3,然后加载到 pandas 数据框架中的每日设备 ping 示例。带有地理空间图像的 Amazon SageMaker Studio 笔记本预装了 GDAL、GeoPandas、Fiona 和 Shapely 等地理空间库,可以轻松处理和分析这些数据。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

此示例数据集包含来自 400,000 个独特地点的 5,000 台设备的约 14,000 个每日设备 ping,这些设备记录是用户于 15 年 2023 月 XNUMX 日访问亚利桑那州凤凰城的热门购物中心 Arrowhead Mall 时记录的。前面的屏幕截图显示了数据模式。这 MAID 列代表设备 ID,每个 MAID 每分钟生成一次 ping,中继设备的纬度和经度,在示例文件中记录为 LatLng 列。

以下是由 Foursquare Studio 提供支持的 Amazon SageMaker 地理空间功能的地图可视化工具的屏幕截图,描绘了上午 7:00 至下午 6:00 期间访问购物中心的设备的 ping 布局。

以下屏幕截图显示了来自商场及周边地区的 ping。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

以下显示了商场内各个商店内部的 ping。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

屏幕截图中的每个点都描绘了给定设备在给定时间点的 ping。一组 ping 代表设备聚集或停止的热门地点,例如商店或餐馆。

作为初始 ETL 的一部分,可以使用 AWS Glue 将这些原始数据加载到表中。您可以创建一个 AWS Glue 爬网程序来识别数据架构并通过指向 Amazon S3 中的原始数据位置作为数据源来形成表。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

如上所述,原始数据(每日设备 ping),即使在初始 ETL 之后,也将代表指示设备位置的连续 GPS ping 流。为了从这些数据中提取可行的见解,我们需要识别停靠点和行程(轨迹)。这可以通过使用来实现 地理空间处理职位 SageMaker 地理空间功能的特点。 Amazon SageMaker处理 在 SageMaker 上使用简化的托管体验,通过专门构建的地理空间容器运行数据处理工作负载。 SageMaker 处理作业的底层基础设施完全由 SageMaker 管理。通过在 SageMaker 处理作业上运行地理空间 ML 容器,此功能允许自定义代码在 Amazon S3 上存储的地理空间数据上运行。您可以通过使用开源库编写自定义代码来对开放或私有地理空间数据运行自定义操作,并使用 SageMaker 处理作业大规模运行该操作。基于容器的方法通过常用的开源库解决了开发环境标准化的需求。

要运行如此大规模的工作负载,您需要一个灵活的计算集群,可以从数十个实例扩展到处理一个城市街区,扩展到数千个实例以进行全球规模的处理。手动管理 DIY 计算集群既缓慢又昂贵。当移动数据集涉及多个城市到多个州甚至国家时,此功能特别有用,并且可用于运行两步机器学习方法。

第一步是使用基于密度的噪声应用空间聚类 (DBSCAN) 算法对 ping 中的停止进行聚类。下一步是使用支持向量机 (SVM) 方法进一步提高所识别停靠点的准确性,并区分有 POI 的停靠点和没有 POI 的停靠点(例如家庭或工作)。您还可以使用 SageMaker 处理作业,通过识别连续停靠点并映射源停靠点和目的地停靠点之间的路径,根据每日设备 ping 生成行程和轨迹。

使用地理空间处理作业大规模处理原始数据(每日设备 ping)后,名为“stops”的新数据集应具有以下架构。

属性 课程描述
身份证或女佣 设备的移动广告 ID(散列)
纬度 停止簇质心的纬度
LNG 停止簇质心的经度
哈希 POI 的 Geohash 位置
设备类型 设备的操作系统(IDFA 或 GAID)
时间戳 停靠站开始时间
停留时间 停止的停留时间(以秒为单位)
ip IP地址
ALT 设备的海拔高度(以米为单位)
国家 原产国的 ISO 两位数代码
代表状态的代码
代表城市的代码
邮政编码 可以看到设备 ID 的邮政编码
承运人 设备的载体
设备制造商 设备制造商

通过对每个设备的 ping 进行集群来合并停止。基于密度的聚类与停车阈值 300 秒、停车间最小距离 50 米等参数相结合。这些参数可以根据您的用例进行调整。

以下屏幕截图显示了从 15,000 个 ping 中识别出的大约 400,000 个停止点。还存在上述模式的子集,其中列 Dwell Time 代表停止持续时间,并且 LatLng 列表示每个位置每个设备的停靠点集群质心的纬度和经度。

ETL后,数据以Parquet文件格式存储,这是一种列式存储格式,可以更轻松地处理大量数据。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

以下屏幕截图显示了商场及周边区域内每台设备 ping 的综合停止情况。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

识别停靠点后,该数据集可以与公开可用的 POI 数据或特定于用例的自定义 POI 数据相结合,以识别活动,例如与品牌的互动。

以下屏幕截图显示了 Arrowhead Mall 内主要 POI(商店和品牌)所标识的站点。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

家庭邮政编码已用于掩盖每个访问者的家庭位置,以维护隐私,以防这是数据集中他们旅行的一部分。这种情况下的纬度和经度是邮政编码质心的相应坐标。

以下屏幕截图是此类活动的直观表示。左图将车站映射到商店,右图显示了购物中心本身的布局。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

可以通过多种方式可视化生成的数据集,我们将在以下部分中讨论。

密度指标

我们可以计算并可视化活动和访问的密度。

例子1 – 以下屏幕截图显示了商场中访问量最高的 15 家商店。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

例子2 – 以下屏幕截图显示了每小时访问 Apple Store 零售店的次数。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

行程和轨迹

如前所述,一对连续的活动代表一次旅行。我们可以使用以下方法从活动数据中得出行程。这里,窗口函数与 SQL 一起使用来生成 trips 表,如屏幕截图所示。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

之后 trips 生成表后,可以确定前往 POI 的行程。

示例 1 – 以下屏幕截图显示了 Apple Store 零售店客流量排名前 10 的商店。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

例子2 – 以下屏幕截图显示了前往 Arrowhead Mall 的所有行程。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

例子3 – 以下视频显示了商场内的运动模式。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

例子4 – 以下视频显示了商场外的运动模式。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

流域面积分析

我们可以分析对 POI 的所有访问并确定服务区域。

示例 1 – 以下屏幕截图显示了对梅西百货商店的所有访问。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

例子2 – 以下屏幕截图显示了访问发生地的前 10 个家庭区域邮政编码(突出显示的边界)。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

数据质量检查

我们可以使用 QuickSight 仪表板和数据分析检查每日传入数据源的质量并检测异常情况。以下屏幕截图显示了示例仪表板。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

结论

用于获取客户洞察和获得竞争优势的移动数据及其分析仍然是一个利基领域,因为很难获得一致且准确的数据集。然而,这些数据可以帮助组织为现有分析添加背景信息,甚至可以产生有关客户移动模式的新见解。 Amazon SageMaker 地理空间功能和地理空间处理作业可以帮助实施这些用例并以直观且易于访问的方式获得见解。

在这篇文章中,我们演示了如何使用 AWS 服务清理移动数据,然后使用 Amazon SageMaker 地理空间功能通过 ML 模型生成衍生数据集,例如停靠点、活动和行程。然后我们使用衍生数据集来可视化运动模式并生成见解。

您可以通过两种方式开始使用 Amazon SageMaker 地理空间功能:

要了解更多信息,请访问: Amazon SageMaker 地理空间功能Amazon SageMaker 地理空间入门。 另外,请访问我们的 GitHub回购,其中有几个有关 Amazon SageMaker 地理空间功能的示例笔记本。


作者简介

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。吉米·马修斯 是一名 AWS 解决方案架构师,拥有 AI/ML 技术方面的专业知识。 Jimy 居住在波士顿,与企业客户合作,帮助他们通过采用云实现业务转型,并帮助他们构建高效且可持续的解决方案。他对家庭、汽车和综合武术充满热情。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。吉里什·克沙夫 是 AWS 的解决方案架构师,帮助客户在云迁移过程中安全高效地实现工作负载的现代化和运行。他与技术团队的领导者合作,在应用程序安全、机器学习、成本优化和可持续性方面指导他们。他居住在旧金山,喜欢旅行、徒步旅行、观看体育比赛和探索精酿啤酒厂。

利用 Amazon SageMaker 地理空间功能,利用移动数据获取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。拉梅什码头 是解决方案架构的高级领导者,专注于帮助 AWS 企业客户将其数据资产货币化。他建议高管和工程师设计和构建高度可扩展、可靠且具有成本效益的云解决方案,特别关注机器学习、数据和分析。在空闲时间,他喜欢与家人一起享受户外活动、骑自行车和徒步旅行。

时间戳记:

更多来自 AWS机器学习