本文最后更新于 1101 天前，如有失效请评论区留言。

本博客由Faconhost大力赞助！如何更快地访问本站？有需要可加电报群获得更多帮助。本博客用什么VPS？创作不易，请支持苯苯！推荐购买本博客的VIP喔，10元/年即可畅享所有VIP专属内容！

前言

借助RSS阅读体系，追踪行业动态变成一件相对简单的事。这是“AI应用系列”的第1期，信息主要来源于各大AI巨头的博客。自己也是抱着学习的心态去总结和讨论AI领域的一些研究/新闻。老实说，很多原始内容也看不太懂，纯当锻炼总结能力、长长见识吧！深入讲技术暂时超出本人能力范围，能概括好一下某应用的特点、展望一下前景就不错了，哈哈！开始时写些简单的也没关系，重要的是这个系列可以坚持做下去；后面自己对技术和应用的理解比较深刻了，再往深了写不迟。除了水博文之外，将概述写下来，自己复习也会方便很多。这个系列给自己看的成分要多一些，所以某些遣词造句可能不太严谨，大家多多见谅了！如果有什么错误，欢迎大佬们指正一下哈！

可能因为自己关注的是AI巨头们的工作，我发现AI的应用基本都是toB类应用，家用/个人级别的应用较少见。另外，最近大模型和多模态在AI领域仍然比较热门，有一些新的技术实现（比如Mixture of Experts，可能也不是很新），感觉还是蛮有意思的。

TorchGeo

遥感影像（Remote sensing imagery）; Coordinate reference system (CRS) 坐标参考系统；

传统图像在色彩、尺寸、格式等方面较为简单和统一，软件生态好，模型迁移性强。而遥感影像图片往往具有多光谱通道、光谱范围广、卫星平台多样化、时序性、强图像冗余、尺寸大、3d转换等特点，这导致传统图像的流程和模型并不能很好地为遥感影像服务。TorchGeo是一个PyTorch域库，旨在构建地理空间数据和分析平台。苯苯点评：TorchGeo算是一个计算机视觉领域的拓展实践。TorchGeo应用前景广泛，或可助力于气象预测、房屋统计、场地识别等场景。

VPT

Video PreTraining 视频预训练；Semi-supervised imitation learning 半监督模仿学习；Minecraft 我的世界； inverse dynamics model (IDM)逆动力学模型；Reinforcement Learning 强化学习；Fine-tuned 微调；Behavioral Cloning 行为克隆；

OpenAI使用少量Minecraft玩家的游戏数据（包括键盘和鼠标动作）训练了一个IDM，它根据过去和未来的信息推测每一步的动作。训练好的IDM用以标记更大的在线视频数据集，通过行为克隆进行学习，从而获得VPT基础模型（VPT foundation model）。在新的早期游戏任务中，基于基础模型上利用行为克隆进行微调，新模型能较快地掌握关键技能。此外，模仿人类行为的VPT在学习困难任务（比如在Minecraft中制作钻石镐）的能力远超采取随机行动的强化学习。下列视频展示了该模型的游戏过程（它也是用键盘和鼠标来玩游戏！）：

苯苯点评：这个研究表明，AI利用人类视频资料学习开放性复杂任务具有可行性。虽然这并不是通过真实世界视频学习与真实世界的互动；但是，很多生产活动都是在计算机上用鼠标+键盘完成的，其中有很多“无脑”的重复性工作（比如填日用表单），这些流程远比玩Minecraft要简单得多。未来VPT类AI可能会影响很多从事此类文书工作的职员。

Auto Arborist数据集

CVPR 2022 paper

Urban ecosystems 城市生态系统; Urban forest monitoring；自动树艺师数据库； tree census 树木普查；Semantic segmentation语义分割；

树木作为城市生态系统的重要组成部分，有必要进行监测以指导公共环保政策的制定。不过，受限于成本，很多城市不具有完整的有关树木位置和种属的信息。Auto Arborist数据集是一个多视图的城市树木分类数据集，目前收录约260万棵树和320个属，并将树木基本信息与街景和航拍RGB图像的信息相整合。

Auto Arborist数据集专注树属预测。Auto指的是数据集除了修复错误、统一分类外，在保护隐私方面使用了AI技术并实现一定程度的自动化，比如通过语义分割等技术模糊图片中的隐私信息（行人、房、车等）：

利用Auto Arborist数据集和ResNet，研究者从城市、区域、全局三个维度的建模发现全局模型往往比区域或城市模型具有更优异的性能，这提示大模型在基于自动化数据库的分类任务中仍占据优势。未来研究者会进一步扩大数据收集的范围和深化内容。

苯苯点评：Auto Arborist Dataset利用AI对旧的大数据进行整合的优秀项目。估计是个政府部门委托的项目。但是对于一个大公司可以调用如此广泛的监控数据（天上+地下），心里总有点咯噔。

LIMoE

Multimodal contrastive learning 多模态对比学习; LIMoE: the Language Image Mixture of Experts 语言图像专家集锦；Sparse models 稀疏模型；Sparse conditional computation 稀疏条件计算；Feed-forward network (FFN) 前馈网络；auxiliary losses 辅助损失；Zero-shot 零射击；Negative interference负面干扰

在相同的功耗下，与密集模型相比，稀疏模型可能训练出识别多种模式的“专家”，通过“专家”的协同合作可提升模型的总体性能。LIMoE是一个图片/文字的多模态模型，研究者们发明了一种新的辅助损失算法并使用路由优先级决定图像/文字的不同部分分配至不同的“专家”进行训练，从而在获得多个“专家”层，最后LIMoE在零射击图片分类任务取得超越稠密模型的表现（在相同的功耗和数据准备条件下）。

研究者们发现，不同的LIMoE“专家”处理的数据具有较大的组间差异，而组内差异则较小：

苯苯评论：LIMoE的创新之处可能是优化了token路由规则，从而使模型更具性价比。LIMoE的结果颇有几分“三个臭皮匠顶个诸葛亮”的韵味。虽然LIMoE表面上看只是图片分类算法的一次优化，但其成功实现也表明“Mixture of Experts”的建模策略可能会在未来的多模态对比学习中大放异彩。LIMoE的专家分解结果也颇有“破解黑箱”的感觉，虽然不知道每个Expert是怎么做到的，但至少旁敲侧击地了解到它在做什么。回观人脑，其脑回或神经连接似乎有所隔离又相互联系，这是否也暗指人的学习本质上也是一种“稀疏的学习”？

DALL·E 2：你说话，我画画

Image embedding 图像嵌入

DALL·E 2是一个AI系统，它可以根据自然语言的描述生成多张不同风格的图片：

根据论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》的介绍，DALL·E 2大致的工作原理是构造一个两阶段模型：（1）在给定文本标题的情况下生成CLIP图像嵌入（Image embedding）的先验模型；（2）根据图像嵌入生成图像的解码器。

苯苯评价：DALL·E 2表面上只是对经典AI技术的巧妙结合；但其结果还是相当惊艳的，因为通过机器生产具有特殊含义的图像无论在哲学上和商业上均具有相当的冲击力。从个人的角度看，DALL·E 2的图像具有很高的审美和想像，其创作水平已经远远超越普通人类；这不禁让人想起GPT-3之类的AI模型在复杂自然语言任务的惊人表现。还有些想吐槽内容：这个模型的名字为什么起得这么怪？这个embedding的用词也很抽象，其实质是不是类似于特征提取？

Ambient Clinical Intelligence

Physician burnout 医师倦怠；Nuance Dragon Ambient eXperience (Nuance DAX)；patient encounters 主诉；Neural Machine Translation (NMT) 神经机器翻译；

Nuance DAX是一个根据医生和患者的对话生成病历文书的AI流程，通过减轻医生在病历文书方面的负担，从而让医生可以在医患沟通投入更多时间和精力。其文本总结功能基于PyTorch平台的Fairseq工具包。

苯苯点评：Nuance DAX主要是一个应用项目，而非技术创新。诚然，这个项目的初衷是十分美好的，这也是太多数临床医生的精神追求——将大部分精力置于患者而非各种医疗文书上；但在实践中可能会有不少阻力。从对话到标准化病历文书的过程，AI在技术胜任只是迟早的事（或许现在就可以实现）；但此类自动化应用布署的主要阻力来源于医院/科室布署该应用的必要性，这其中涉及法律、伦理、运营成本等多种非技术因素。与人工智能相比，临床实践是一个相对传统和保守的领域。除非现行的病历体系确实对临床医学的发展造成了很大的威胁，否则此类AI应用的布署很可能是遥遥无期的（至少在中国是这样）。

拓展阅读

Google at CVPR 2022

---------------
完结，撒花！如果您点一下广告，可以养活苯苯😍😍😍

前言

TorchGeo

VPT

Auto Arborist数据集

LIMoE

DALL·E 2：你说话，我画画

Ambient Clinical Intelligence

拓展阅读

发送评论 编辑评论

推荐文章

发送评论编辑评论