确定住房价值是使用机器学习 (ML) 的典型示例。 Harrison 和 Rubinfeld (1978) 产生了重大影响,他们发表了一篇开创性的论文和数据集,非正式地称为波士顿住房数据集。 这项开创性的工作提出了一种根据多个维度(包括空气质量)来估计房价的方法,这是他们研究的主要焦点。 近 50 年后,房价估算已成为有兴趣在商业决策中使用数据和机器学习的学生和专业人士的重要教学工具。
在这篇文章中,我们讨论专门为视觉问答(VQA)任务设计的开源模型的使用。 借助 VQA,您可以使用自然语言提出有关照片的问题,并收到问题的答案(同样是用简单的语言)。 我们这篇文章的目标是启发并展示使用这项技术的可能性。 我们建议将此功能与 亚马逊SageMaker 服务平台,用于提高机器学习用例中回归模型的准确性,并独立地用于视觉图像的自动标记。
我们提供相应的 YouTube视频 这说明了这里讨论的内容。 视频播放将中途开始以突出显示最突出的点。 我们建议您结合视频阅读本内容,以加强和更丰富地理解这个概念。
基础模型
该解决方案以使用发布到 Hugging Face 模型存储库的基础模型为中心。 在这里,我们使用术语 基础模型 描述经过大量多样化数据预训练的人工智能 (AI) 功能。 基础模型有时可以随时使用,而无需从零开始训练模型。 一些基础模型可以进行微调,这意味着向他们传授与您的业务相关但在原始通用发布模型中缺失的其他模式。 有时需要进行微调,以提供针对您的用例或知识体系所特有的正确响应。
在 拥抱脸 存储库中,有多种 VQA 模型可供选择。 我们选择了在撰写本文时下载次数最多的模型。 尽管本文演示了使用开源模型存储库中的模型的能力,但相同的概念也适用于您从零开始训练的模型或从其他可信提供商处使用的模型。
经典用例的现代方法
传统上,房价估算是通过表格数据进行的,其中使用房产的特征来告知价格。 尽管可能有数百个特征需要考虑,但一些基本的例子是完工空间中房屋的大小、卧室和浴室的数量以及住宅的位置。
机器学习能够整合表格数据之外的多种输入源,例如音频、静态图像、动态视频和自然语言。 在人工智能中,术语 多峰的 指使用多种媒体类型,例如图像和表格数据。 在这篇文章中,我们将展示如何使用多模态数据来发现和释放当今现代世界产生的大量数字废气中隐藏的隐藏价值。
考虑到这个想法,我们演示了如何使用基础模型从房产图像中提取潜在特征。 通过利用图像中发现的、以前在表格数据中无法获得的见解,我们可以提高模型的准确性。 本文中讨论的图像和表格数据最初提供并发布于 GitHub上 艾哈迈德和穆斯塔法 (2016)。
一张图片胜过千言万语
现在我们了解了 VQA 的功能,让我们考虑以下两张厨房图像。 您如何从这些图像中评估房屋的价值? 您会问自己哪些问题? 每张图片可能会在你的脑海中引发数十个问题。 其中一些问题可能会带来有意义的答案,从而改善房屋估价流程。
照片来源:Unsplash 上的 Francesca Tosolini(左)和 Sidekix Media(右)
下表通过显示问题及其相应的答案,提供了 VQA 交互的轶事示例。 答案可以以分类、连续值或二元响应的形式出现。
示例问题 | 基础模型的示例答案 |
台面是由什么制成的? | 花岗岩、瓷砖、大理石、层压板等 |
这是一个昂贵的厨房吗? | 是的,不 |
有多少个独立的水槽? | 0,1,2 |
参考架构
在这篇文章中,我们使用 亚马逊SageMaker数据牧马人 针对数据集中的数千张照片提出一组统一的视觉问题。 SageMaker Data Wrangler 专为简化数据准备和特征工程的过程而构建。 通过提供 300 多个内置转换,SageMaker Data Wrangler 有助于将为 ML 准备表格和图像数据所需的时间从几周缩短到几分钟。 在这里,SageMaker Data Wrangler 将原始表格集中的数据特征与基础模型中的照片特征结合起来进行模型训练。
接下来,我们使用以下方法构建回归模型 亚马逊 SageMaker 画布。 SageMaker Canvas 无需编写任何代码即可构建模型,并在短短 2-15 分钟内提供初步结果。 在接下来的部分中,我们提供了一个参考架构,用于使该解决方案指南成为可能。
Hugging Face 和其他提供商的许多流行模型都可以一键部署 亚马逊SageMaker JumpStart。 这些存储库中有数十万个可用模型。 在本文中,我们选择了 SageMaker JumpStart 中不可用的模型,该模型需要客户部署。 如下图所示,我们部署一个 Hugging Face 模型进行推理,使用 亚马逊SageMaker Studio 笔记本。 该笔记本用于部署实时推理的端点。 该笔记本使用的资产包括 Hugging Face 二进制模型、指向容器图像的指针以及与模型的预期输入和输出相匹配的专用 inference.py 脚本。 当您阅读本文时,可用 VQA 模型的组合可能会发生变化。 重要的是在您阅读本文时查看可用的 VQA 模型,并准备部署您选择的模型,该模型将有自己的 API 请求和响应契约。
在 SageMaker 端点提供 VQA 模型服务后,我们使用 SageMaker Data Wrangler 来编排管道,最终组合表格数据和从数字图像中提取的特征,并重塑数据以进行模型训练。 下图提供了全面数据转换作业如何运行的视图。
下图中,我们使用SageMaker Data Wrangler编排数据准备任务,并使用SageMaker Canvas进行模型训练。 首先,SageMaker Data Wrangler 使用 亚马逊定位服务 将原始数据中可用的邮政编码转换为纬度和经度特征。 其次,SageMaker Data Wrangler 能够协调将数千张照片发送到 SageMaker 托管端点以进行实时推理,针对每个场景提出一组统一的问题。 这产生了一系列丰富的特征,描述了在厨房、浴室、家庭外部等处观察到的特征。 SageMaker Data Wrangler 准备好数据后,训练数据集可在 亚马逊简单存储服务 (亚马逊 S3)。 使用 S3 数据作为输入,SageMaker Canvas 能够在短短 2-15 分钟内训练模型,而无需编写任何代码。
使用 SageMaker Data Wrangler 进行数据转换
以下屏幕截图显示了 SageMaker Data Wrangler 工作流程。 该工作流程从存储在 Amazon S3 中的数千张家庭照片开始。 接下来,场景检测器确定场景,例如厨房或浴室。 最后,对图像提出一组特定于场景的问题,从而产生更丰富的表格数据集可用于训练。
以下是 SageMaker Data Wrangler 自定义转换代码的示例,用于与基础模型交互并获取有关厨房图片的信息。 在前面的屏幕截图中,如果您选择厨房功能节点,则会出现以下代码:
出于安全考虑,您必须首先启用 SageMaker Data Wrangler 通过以下方式调用您的 SageMaker 实时端点: AWS身份和访问管理 (我是)。 同样,您通过 SageMaker Data Wrangler 调用的任何 AWS 资源都需要类似的允许权限。
SageMaker Data Wrangler 之前和之后的数据结构
在本节中,我们讨论原始表格数据和增强数据的结构。 增强数据包含与此示例用例相关的新数据功能。 在您的应用程序中,花一些时间想象图像中可用的各种问题,以帮助您完成分类或回归任务。 这个想法是想象尽可能多的问题,然后测试它们以确保它们确实提供增值。
原始表格数据的结构
正如源中所描述的 GitHub回购,示例数据集包含 535 个表格记录,其中每个属性有四个图像。 下表说明了原始表格数据的结构。
专栏 | 评论 |
卧室数 | . |
浴室数量 | . |
面积(平方英尺) | . |
邮政编码 | . |
价格 | 这是要预测的目标变量。 |
增强数据的结构
下表说明了增强的数据结构,其中包含从图像派生的几个新特征。
专栏 | 评论 |
卧室数 | . |
浴室数量 | . |
面积(平方英尺) | . |
纬度 | 通过将原始邮政编码传递到 Amazon Location Service 中来计算。 这是 ZIP 的质心值。 |
经度 | 通过将原始邮政编码传递到 Amazon Location Service 中来计算。 这是 ZIP 的质心值。 |
卧室是否有拱形天花板? | 0 = 否; 1 = 是 |
卫生间贵吗? | 0 = 否; 1 = 是 |
厨房贵吗? | 0 = 否; 1 = 是 |
价格 | 这是要预测的目标变量。 |
使用 SageMaker Canvas 进行模型训练
SageMaker Data Wrangler 处理作业充分准备并使整个表格训练数据集在 Amazon S3 中可用。 接下来,SageMaker Canvas 解决了 ML 生命周期的模型构建阶段。 Canvas 首先打开 S3 训练集。 能够理解模型通常是关键的客户需求。 无需编写代码,只需点击几下,SageMaker Canvas 即可提供有关模型性能的丰富的可视化反馈。 如下节的屏幕截图所示,SageMaker Canvas 显示了单个特征如何通知模型。
使用原始表格数据和源自房地产图像的特征训练模型
从下面的屏幕截图中我们可以看出,根据房产图像开发的功能非常重要。 根据这些结果,照片中的“这个厨房贵吗”问题比原始表格集中的“卧室数量”更重要,特征重要性值分别为 7.08 和 5.498。
以下屏幕截图提供了有关模型的重要信息。 首先,残差图显示集合中的大多数点聚集在紫色阴影区域周围。 在此示例中,在 SageMaker Canvas 外部手动注释了两个异常值。 这些异常值代表真实房屋价值和预测价值之间的巨大差距。 此外,R2 值的可能范围为 0–100%,显示为 76%。 这表明该模型是不完善的,并且没有足够的信息点来充分考虑所有变化以充分估计房屋价值。
我们可以使用异常值来查找并提出额外的信号,以构建更全面的模型。 例如,这些异常属性可能包括游泳池或位于大片土地上。 数据集不包含这些特征; 但是,您也许能够找到这些数据并训练一个新模型,其中包含“有游泳池”作为附加功能。 理想情况下,在您下次尝试时,R2 值会增加,而 MAE 和 RMSE 值会减少。
在没有从房地产图像中提取特征的情况下训练模型
最后,在进入下一部分之前,让我们探讨一下图像中的特征是否有帮助。 以下屏幕截图提供了另一个 SageMaker Canvas 训练模型,没有 VQA 模型的功能。 我们看到模型错误率有所增加,从 RMSE 282K 增加到 RMSE 352K。 由此,我们可以得出结论,图像中的三个简单问题将模型准确率提高了约 20%。 未显示,但为了完整起见,R2 以下模型的值也恶化了,从提供 VQA 功能的 62% 下降到 76%。 这是一个示例,说明 SageMaker Canvas 如何让快速试验和使用数据驱动方法变得简单,从而生成满足您的业务需求的模型。
展望未来
许多组织对基础模型越来越感兴趣,特别是自 2022 年 XNUMX 月通用预训练 Transformer (GPT) 正式成为感兴趣的主流主题以来。对基础模型的很大一部分兴趣集中在大型语言模型 (LLM) 任务上; 然而,还有其他不同的用例可用,例如计算机视觉,以及更狭义的此处描述的专门的 VQA 任务。
这篇文章是一个激发使用多模式数据来解决行业用例的示例。 尽管我们在回归模型中演示了 VQA 的用途和优势,但它也可用于为后续搜索或业务工作流路由标记图像。 想象一下能够搜索列出待售或出租的房产。 假设您想找到一处有瓷砖地板或大理石台面的房产。 如今,您可能需要获取一长串候选属性,并在浏览每个候选属性时通过视觉进行筛选。 相反,想象一下能够过滤包含这些功能的列表 - 即使一个人没有明确标记它们。 在保险行业,想象一下估算索赔损失或根据图像在业务工作流程中路由下一步操作的能力。 在社交媒体平台中,照片可以自动标记以供后续使用。
总结
本文演示了如何使用基础模型支持的计算机视觉来改进使用 SageMaker 平台的经典 ML 用例。 作为所提出的解决方案的一部分,我们在公共模型注册表中找到了一个流行的 VQA 模型,并使用 SageMaker 端点进行部署以进行实时推理。
接下来,我们使用 SageMaker Data Wrangler 来编排一个工作流程,在该工作流程中对图像提出统一的问题,以生成一组丰富的表格数据。 最后,我们使用 SageMaker Canvas 训练回归模型。 值得注意的是,示例数据集非常简单,因此设计上并不完美。 即便如此,SageMaker Canvas 也可以让您轻松了解模型的准确性并寻找其他信号来提高基线模型的准确性。
我们希望这篇文章能够鼓励您使用您的组织可能拥有的多模式数据。 此外,我们希望这篇文章能够启发您将模型训练视为一个迭代过程。 只要有耐心,就可以实现出色的模型。 近乎完美的模型可能好得令人难以置信,这可能是目标泄漏或过度拟合的结果。 理想的场景应该从一个好的但不完美的模型开始。 使用误差、损失和残差图,您可以获得额外的数据信号,以提高初始基线估计的准确性。
AWS 提供最广泛、最深入的 ML 服务和支持云基础设施,让每一位开发人员、数据科学家和专家从业者都能掌握 ML。 如果您想了解有关 SageMaker 平台(包括 SageMaker Data Wrangler 和 SageMaker Canvas)的更多信息,请联系您的 AWS 客户团队并开始对话。 另外,请考虑阅读有关 SageMaker Data Wrangler 的更多信息 自定义转换.
参考资料
艾哈迈德·EH 和穆斯塔法·M. (2016)。 根据视觉和文本特征估算房价。 IJCCI 2016-第八届计算智能国际联合会议论文集,8, 3–62。
哈里森 Jr.,D. 和鲁宾菲尔德,DL (1978)。 享乐的房价和对清洁空气的需求。 环境经济与管理杂志, 5(1),81 102。
Kim, W.、Son, B. 和 Kim, I..(2021)。 ViLT:没有卷积或区域监督的视觉和语言转换器。 第 38 届国际机器学习会议论文集,机器学习研究论文集。 139:5583-5594。
关于作者
查尔斯·劳克林 是首席 AI/ML 专家解决方案架构师,在 AWS 的 Amazon SageMaker 服务团队工作。 他帮助制定服务路线图,并每天与不同的 AWS 客户合作,利用尖端的 AWS 技术和思想领导力帮助他们实现业务转型。 Charles 拥有供应链管理硕士学位和博士学位。 在数据科学中。
- :具有
- :是
- :不是
- :在哪里
- $UP
- 08
- 1
- 100
- 2016
- 2021
- 2022
- 32
- 49
- 50
- 50年
- 7
- 8
- 8日
- a
- 对,能力--
- Able
- 关于
- 丰富
- ACCESS
- 账号管理
- 实现
- 行动
- 额外
- 另外
- 地址
- 后
- 艾哈迈德
- AI
- AI / ML
- 加拿大航空
- 所有类型
- 让
- 几乎
- 靠
- 还
- 尽管
- Amazon
- 亚马逊SageMaker
- 亚马逊网络服务
- amp
- an
- 和
- 另一个
- 回答
- 答案
- 任何
- API
- 出现
- 应用领域
- 使用
- 的途径
- 架构
- 保健
- 围绕
- 排列
- 人造的
- 人工智能
- 人工智能(AI)
- AS
- 问
- 问
- 评估
- 办公室文员:
- At
- 尝试
- 音频
- 自动化
- 可使用
- AWS
- 基于
- 底线
- BE
- 成为
- 成为
- 成为
- 很
- before
- 开始
- 作为
- 得益
- 之间
- 超越
- 身体
- 波士顿
- 都
- 建立
- 建筑物
- 内建的
- 负担
- 商业
- 企业
- 但是
- by
- 呼叫
- CAN
- 候选人
- 帆布
- 能力
- 能力
- 能力
- 案件
- 例
- 天花板
- 中心
- 中心
- 链
- 更改
- 特点
- 查尔斯
- 要求
- 经典
- 分类
- 清洁
- 云端技术
- 云基础设施
- 集群
- 码
- 代码
- 领域展开合作
- 颜色
- 结合
- 如何
- 完成
- 全面
- 计算
- 一台
- 计算机视觉
- 概念
- 总结
- 研讨会 首页
- 考虑
- 考虑
- 包含
- 容器
- 包含
- 连续
- 合同
- 谈话
- 兑换
- 协调
- 正确
- 相应
- 可以
- 信用
- 好奇
- 习俗
- 顾客
- 合作伙伴
- 前沿
- 每天
- data
- 资料准备
- 数据科学
- 数据科学家
- 数据集
- 资料结构
- 数据驱动
- 十二月
- 决策
- 减少
- 最深
- 交付
- 需求
- 演示
- 证明
- 演示
- 部署
- 部署
- 部署
- 派生
- 描述
- 描述
- 设计
- 设计
- 确定
- 发达
- 开发商
- 数字
- 尺寸
- 讨论
- 讨论
- 不同
- do
- 不
- 不会
- 下载
- 几十个
- 删除
- e
- 每
- 易
- 经济学
- enable
- 启用
- 鼓励
- 端点
- 工程师
- 增强
- 更多
- 整个
- 环境的
- 错误
- 故障
- 特别
- 评估
- 等
- 甚至
- 所有的
- 例子
- 例子
- 预期
- 昂贵
- 实验
- 技术专家
- 明确地
- 探索
- 提取
- 面部彩妆
- 专栏
- 特征
- 反馈
- 脚
- 少数
- 数字
- 过滤
- 终于
- 找到最适合您的地方
- 姓氏:
- 地板
- 专注焦点
- 遵循
- 以下
- 如下
- 针对
- 申请
- 发现
- 基金会
- 四
- 止
- 全尺寸
- 充分
- 功能
- 功能
- 根本
- Gain增益
- 差距
- 其他咨询
- 生成
- 得到
- 目标
- 非常好
- 图形
- 大
- 奠基
- 指导
- 手
- 有
- he
- 帮助
- 有帮助
- 帮助
- 相关信息
- 老旧房屋
- 近期亮点
- 持有
- 主页
- 家园
- 抱有希望
- 托管
- 别墅
- 住房
- 创新中心
- How To
- 但是
- HTTP
- HTTPS
- 数百
- i
- 主意
- 理想
- 理想
- 身分
- if
- 说明
- 图片
- 图片
- 想像
- 进口
- 重要性
- 重要
- 改善
- 改善
- in
- 包括
- 包括
- 包含
- 结合
- 增加
- 增加
- 日益
- 独立地
- 表示
- 行业中的应用:
- 影响
- 通知
- 信息
- 基础设施
- 初始
- 输入
- 可行的洞见
- 启发
- 灵感
- 代替
- 保险
- 房源搜索
- 相互作用
- 互动
- 兴趣
- 有兴趣
- 国际
- 成
- IT
- 它的
- 工作
- 联合
- JPG
- JSON
- 键
- Kim
- 知识
- 已知
- 标签
- 土地
- 语言
- 大
- 后来
- 铅
- 领导团队
- 学习用品
- 学习
- 生命周期
- 清单
- 已发布
- 房源
- 小
- LLM
- 位于
- 圖書分館的位置
- 锁定
- 长
- 损失
- 机
- 机器学习
- 制成
- 主流
- 使
- 制作
- 颠覆性技术
- 手动
- 许多
- 火柴
- 可能..
- 有意义的
- 手段
- 媒体
- 方法
- 中途
- 可能
- 介意
- 分钟
- 失踪
- 混合
- ML
- 模型
- 模型
- 现代
- 更多
- 最先进的
- 运动
- 移动
- 必须
- 自然
- 需求
- 打印车票
- 全新
- 新功能
- 下页
- 没有
- 节点
- 笔记本
- 数
- 众多
- 获得
- 发生
- of
- 优惠精选
- 正式
- 经常
- on
- 仅由
- 开放源码
- 开放
- or
- 秩序
- 组织
- 组织
- 原版的
- 本来
- 其他名称
- 我们的
- 输出
- 局外人
- 产量
- 学校以外
- 己
- 纸类
- 部分
- 通过
- 忍耐
- 模式
- 为
- 性能
- 也许
- 权限
- 人
- 相
- 照片
- 图片
- 图片
- 图片
- 管道
- 朴素
- 平台
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 请
- 点
- 点
- 池
- 热门
- 一部分
- 拥有
- 可能
- 帖子
- 都曾预测
- 初步
- 准备
- Prepare
- 准备
- 准备
- 先前
- 车资
- 价格
- 校长
- Proceedings
- 过程
- 处理
- 生成
- 专业人士
- 财产
- 提供
- 建议
- 提供
- 提供
- 提供者
- 供应商
- 提供
- 优
- 国家
- 出版
- 把
- 质量
- 题
- 有疑问吗?
- 很快
- R
- 范围
- 率
- 原
- 达到
- 阅读
- 阅读
- 准备
- 实时的
- 接收
- 记录
- 减少
- 参考
- 指
- 地区
- 注册处
- 加强
- 相对的
- 相应
- 出租
- 知识库
- 代表
- 请求
- 需求
- 需要
- 研究
- 重塑
- 住所
- 资源
- 分别
- 响应
- 回复
- 导致
- 导致
- 成果
- 回报
- 检讨
- 丰富
- 更富有
- 路线图
- 路线
- 路由
- 运行
- 运行
- s
- sagemaker
- 盐
- 同
- 样本数据集
- 脚本
- 现场
- 科学
- 科学家
- 斯科特
- 脚本
- 搜索
- 其次
- 部分
- 保安
- 看到
- 寻找
- 看到
- 选
- 发送
- 服务
- 已服务
- 服务
- 特色服务
- 集
- 几个
- 形状
- 显示
- 如图
- 作品
- 视力
- 信号
- 显著
- 类似
- 同样
- 简易
- 简化
- 自
- 单
- 尺寸
- So
- 社会
- 社会化媒体
- 社会化媒体平台
- 方案,
- 解决
- 一些
- 有时
- 是
- 来源
- 来源
- 太空
- 专家
- 专门
- 特别是
- 广场
- 开始
- 仍
- 存储
- 存储
- 简单的
- 结构体
- 结构
- 学生
- 随后
- 这样
- 建议
- 监管
- 供应
- 供应链
- 供应链管理
- 支持
- 肯定
- 表
- 行李牌
- 采取
- 需要
- 目标
- 任务
- 任务
- 教诲
- 团队
- 技术
- 专业技术
- 术语
- test
- 文字的
- 比
- 这
- 其
- 他们
- 然后
- 那里。
- 因此
- 博曼
- 他们
- 事
- Free Introduction
- 那些
- 思想
- 精神领袖
- 千
- 数千
- 三
- 通过
- 次
- 至
- 今晚
- 今天的
- 也有
- 工具
- 主题
- 传统
- 培训
- 熟练
- 产品培训
- 改造
- 转型
- 转换
- 变压器
- 变形金刚
- true
- 信任
- 二
- 类型
- 类型
- 最终
- 理解
- 理解
- 独特
- Unsplash
- 使用
- 用例
- 用过的
- 使用
- 运用
- 利用
- 评估
- 折扣值
- 增值
- 价值观
- 变量
- 各种
- 非常
- 视频
- 查看
- 可见
- 愿景
- 视觉
- W
- 想
- 是
- we
- 卷筒纸
- Web服务
- 周
- 井
- 为
- 什么是
- 什么是
- 这
- WHO
- 将
- 窗户
- 中
- 也完全不需要
- 木材
- 工作
- 工作流程
- 合作
- 世界
- 价值
- 将
- 写作
- 年
- 产量
- 完全
- 您一站式解决方案
- 你自己
- YouTube的
- 和风网
- 零
- 压缩