特斯拉大裁员,苹果赢麻了?维基百科:我的每一条引用都AI过;面向工业落地的目标检测框架;我的『粗野主义』操作系统;MLOps概览 | ShowMeAI资讯日报

ShowMeAI 日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表;,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。

🚗 特斯拉裁员,竞争对手乐开花,苹果想造车的秘密藏不住了!

6月初,埃隆·马斯克(Elon Musk)一封邮件决定裁员10%,随后包括 Autopilot 团队在内的多个部门或职位被裁撤。Punks & Pinstripes 使用 LinkedIn Sales Navigator 数据完成的研究表明——过去90天内,457名特斯拉前员工,纷纷投向了竞争对手和科技公司的怀抱。

作为 Tesla 在电动汽车领域的直接竞争者,Rivian Automotive(56名)和 Lucid Motors (34名) 排在榜单绝对前列,亚马逊支持的自动驾驶汽车初创公司 Zoox (9名) 也占据了一席之地。科技巨头苹果 (51名)、亚马逊 (51名)、谷歌 (29名)、Meta (25名) 和 微软 (23名) 共招聘179名,『正名』Tesla 确实是一家科技公司,并非传统意义上的汽车制造商。而苹果『Titan』项目的造车企图,也由此显露冰山一角。此外,榜单中 Redwood Materials 是特斯拉联合创始人JB Straubel 领导的电池回收公司,Space X 则是由马斯克创办的民营航天制造商和太空运输公司。

; 工具&框架

🚧『Side』Meta 开发的 AI 辅助编辑器,使维基百科的引用条目更准确

https://github.com/facebookresearch/side

维基百科要求有争议的陈述等必须附上引用源(citation),但是每月新增的17000多篇文章,给志愿者的检查工作带来了巨大挑战。Meta AI 团队开发了第一个能够一次自动验证数十万次引用的模型,将最有可能存在缺陷的引用交由人工判断,避免了在数千条正确引用上耗费时间。

Side 平台可以系统地发掘维基百科的引用问题,进而快速修复引用,甚至大规模地更正文章内容,以确保维基百科条目的准确度。试了一下 Side 平台,提交时特别有成就感!

; 🚧『COCR』手绘化学结构OCR识别

https://github.com/Xuguodong1999/COCR

COCR(Optical Character Recognition for Chemical Structures,化学结构的光学字符识别) 源自于作者 2021 年的本科毕业论文,将OCSR(光学化学结构识别)的能力引入到手写的案例中,从而实现手写的化学结构图片转换为对应的分子结构图。

; 🚧『AIRDet』面向工业落地的目标检测框架

https://github.com/tinyvision/AIRDet

借助学术界的突破和工业落地经验,AIRDet-s 能够对复杂多变的工业场景提供开箱即用的目标检测能力。AIRDet-s 不仅在精度上超越了目前的一众 YOLO(YOLOX-s、YOLOv6-s、YOLOe-s),保持着极高的推理速度,还提供了高效的训练策略以及便捷易用的部署工具,能够快速解决工业落地中的实际问题。下图是在 COCO2017 验证集上的结果。

; 🚧『rtui』用于 ROS 的 TUI(Terminal User Interface,终端用户界面)工具

https://github.com/eduidl/rtui

; 🚧『BRUTAL』操作系统

https://github.com/brutal-org/brutal

受到『粗野主义(Brutalist)』的启发,作者将上世纪70年代的 UNIX 与现代工程技术相结合,开发了 BRUTAL 操作系统。充满现代主义意味的图形、对现代C语言的大胆使用等,构成了 BRUTAL 操作系统的独特标志。当前更新到了 Milestone5,在 Roadmap.md 页面可以看到团队的持续努力。

; 博文&分享

👍『Machine Learning Operations (MLOps): Overview, Definition, and Architecture』MLOps概览

https://arxiv.org/abs/2205.02302

所有工业机器学习项目的最终目标,都是开发机器学习产品并迅速投产,但这一过程面临着巨大的挑战。Machine Learning Operations(MLOps)有望为这一过程提供解决方案。论文作者通过文献回顾、工具回顾和专家访谈等研究方法,提供了 MLOps 的定义,强调了该领域面临的挑战,并为机器学习产品的研发人员提供机器学习产品自动化操作所需的技术指南。

; 数据&资源

🔥『Physical Concepts Dataset』用于学习和评估受发展心理学启发的直觉物理学的数据集

https://github.com/deepmind/physical_concepts

; 研究&论文

可以点击 这里 回复关键字 日报,免费获取整理好的论文合辑。

科研进展

  • 2022.07.10 『 机器人』 2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds
  • 2022.07.11 『 图像识别』 Dual Vision Transformer
  • 2022.07.08 『 深度学习』 k-means Mask Transformer
  • 2022.07.10 『 对抗学习』 CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer

⚡ 论文:2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds

论文标题:2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds

论文时间:10 Jul 2022

所属领域机器人

对应任务:3D Semantic Segmentation,Autonomous Driving,Knowledge Distillation,LIDAR Semantic Segmentation,Representation Learning,Semantic Segmentation,三维语义分割,自主驾驶,知识蒸馏,激光雷达语义分割,表征学习,语义分割

论文地址:https://arxiv.org/abs/2207.04397

代码实现:https://github.com/yanx27/2dpass

论文作者:Xu Yan, Jiantao Gao, Chaoda Zheng, Chao Zheng, Ruimao Zhang, Shenghui Cui, Zhen Li

论文简介:As camera and LiDAR sensors capture complementary information used in autonomous driving, great efforts have been made to develop semantic segmentation algorithms through multi-modality data fusion./关于摄像头和LiDAR传感器捕捉到了用于自动驾驶的互补信息,过往研究者已经做出了巨大努力,通过多模态数据融合来开发语义分割算法。

论文摘要:关于相机和LiDAR传感器捕捉了自动驾驶中使用的互补信息,过往研究者已经做出了巨大努力,通过多模态数据融合来开发语义分割算法。然而,基于融合的方法需要成对的数据,即LiDAR点云和具有严格的点对像素映射的相机图像,作为训练和推理的输入,这严重阻碍了它们在实际场景中的应用。因此,在这项工作中,我们提出了2D Priors Assisted Semantic Segmentation(2DPASS),这是一个通用的训练方案,通过充分利用具有丰富外观的二维图像来促进点云上的表示学习。在实践中,通过利用辅助模态融合和多尺度融合到单一知识提炼(MSFSKD),2DPASS从多模态数据中获得了更丰富的语义和结构信息,然后在线提炼到纯三维网络。因此,在配备了2DPASS后,我们的基线在只有点云输入的情况下显示出了显著的改进。具体来说,它在两个大规模的基准测试(即SemanticKITTI和NuScenes)中达到了最先进的水平,包括在SemanticKITTI的单次和多次扫描比赛中取得了第一名的成绩。

; ⚡ 论文:Dual Vision Transformer

论文标题:Dual Vision Transformer

论文时间:11 Jul 2022

所属领域:计算机视觉

对应任务图像识别

论文地址:https://arxiv.org/abs/2207.04976

代码实现:https://github.com/yehli/imagenetmodel

论文作者:Ting Yao, Yehao Li, Yingwei Pan, Yu Wang, Xiao-Ping Zhang, Tao Mei

论文简介:Dual-ViT is henceforth able to reduce the computational complexity without compromising much accuracy./因此,Dual-ViT能够在不影响精度的情况下降低计算的复杂性。

论文摘要:以前的工作已经提出了几种策略来减少自我注意机制的计算成本。其中许多工作考虑将自注意力分解为区域和局部特征提取步骤,每个步骤都会产生更小的计算复杂性。然而,区域信息的实现通常是以下采样所造成的不良信息损失为代价的。在本文中,我们提出了一个旨在缓解成本问题的新型Transformer架构,名为双视觉Transformer(Dual-ViT)。这个新的架构包含了一个关键的语义通路,可以更有效地将标记向量压缩成全局语义,并降低了复杂度。然后,这种压缩的全局语义作为有用的先验信息,通过另一个构建的像素路径,学习更精细的像素级细节。然后,语义途径和像素途径被整合在一起,并被联合训练,通过这两条途径平行地传播增强的自注意信息。因此,Dual-ViT能够在不影响准确性的情况下降低计算的复杂性。我们通过经验证明,Dual-ViT在降低训练复杂度的同时提供了比SOTA Transformer架构更高的准确性。源代码可在 https://github.com/YehLi/ImageNetModel 获取。

⚡ 论文:k-means Mask Transformer

论文标题:k-means Mask Transformer

论文时间:8 Jul 2022

所属领域深度学习

对应任务:Natural Language Processing,object-detection,Object Detection,Panoptic Segmentation,自然语言处理,物体检测,物体检测,全景分割

论文地址:https://arxiv.org/abs/2207.04044

代码实现:https://github.com/google-research/deeplab2

论文作者:Qihang Yu, Huiyu Wang, Siyuan Qiao, Maxwell Collins, Yukun Zhu, Hatwig Adam, Alan Yuille, Liang-Chieh Chen

论文简介:However, we observe that most existing transformer-based vision models simply borrow the idea from NLP, neglecting the crucial difference between languages and images, particularly the extremely large sequence length of spatially flattened pixel features./然而,我们观察到,大多数现有的基于Transformer的视觉模型只是简单地借用了NLP的想法,忽略了语言和图像之间的关键区别,尤其是空间扁平化像素特征的极长序列。

论文摘要:transformers在视觉任务中的兴起,不仅推进了网络骨干设计,也为实现端到端的图像识别(如物体检测和全景分割)开启了崭新的一页。起源于自然语言处理(NLP),由自注意和交叉注意组成的Transformer架构可以有效地学习序列中元素之间的长程互动。然而,我们观察到,大多数现有的基于Transformer的视觉模型只是简单地借用了NLP的想法,忽略了语言和图像之间的关键区别,特别是空间扁平化的像素特征的极大序列长度。这随后阻碍了像素特征和物体查询之间交叉注意的学习。在本文中,我们重新思考了像素和物体查询之间的关系,并建议将交叉注意力的学习重新表述为一个聚类过程。受传统的k-means聚类算法的启发,我们开发了一种用于分割任务的k-means Mask Xformer(kMaX-DeepLab),它不仅改进了最先进的算法,而且还享有简单而优雅的设计。结果,我们的kMaX-DeepLab在COCO估值集上取得了58.0%的PQ,在Cityscapes估值集上取得了68.4%的PQ、44.0%的AP和83.5%的mIoU的新的最先进的性能,而无需测试时间的增加或外部数据集。我们希望我们的工作能够为设计为视觉任务量身定做的变换器提供一些启示。代码和模型可在 https://github.com/google-research/deeplab2 获取。

; ⚡ 论文:CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer

论文标题:CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer

论文时间:11 Jul 2022

所属领域对抗学习

对应任务:Image-to-Image Translation,Style Transfer,Video Style Transfer,图像到图像的翻译,风格转换,视频风格转换

论文地址:https://arxiv.org/abs/2207.04808

代码实现:https://github.com/JarrentWu1031/CCPL

论文作者:Zijie Wu, Zhen Zhu, Junping Du, Xiang Bai

论文简介:CCPL can preserve the coherence of the content source during style transfer without degrading stylization./CCPL可以在风格转移过程中保持内容源的一致性而不降低风格化程度。

论文摘要:在本文中,我们旨在设计一种通用的风格转移方法,能够联合进行艺术、照片写实和视频风格的转移,在训练期间不需要看到视频。以前的单帧方法假定对整个图像有很强的约束,以保持时间上的一致性,这在很多情况下可能会失败。相反,我们做了一个温和而合理的假设,即全局的不一致被局部的不一致所支配,并设计了一个通用的对比性一致性保护损失(CCPL),应用于局部斑块。CCPL可以在风格转移过程中保持内容源的一致性,而不会降低风格化程度。此外,它还拥有一个邻居调节机制,从而大大减少了局部失真和相当大的视觉质量改善。除了在多功能风格转移方面的优异表现,它还可以很容易地扩展到其他任务,如图像到图像的翻译。此外,为了更好地融合内容和风格特征,我们提出了简单协方差变换(SCT),以有效调整内容特征和风格特征的二阶统计。实验表明,当与CCPL一起使用时,所产生的模型对于多功能的风格转换是有效的。

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。

Original: https://blog.csdn.net/ShowMeAI/article/details/125837165
Author: ShowMeAI
Title: 特斯拉大裁员,苹果赢麻了?维基百科:我的每一条引用都AI过;面向工业落地的目标检测框架;我的『粗野主义』操作系统;MLOps概览 | ShowMeAI资讯日报

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/686516/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球