内容隐藏

计算机视觉

目标受众

快速入门

场景

计算机视觉

近年来，我们看到了计算机视觉的非同寻常的增长，应用于人脸识别、图像理解、搜索、无人机、地图绘制、半自动和自动驾驶车辆。其中许多应用的关键部分是视觉识别任务，例如图像分类、目标检测和图像相似度

此存储库提供构建计算机视觉系统的示例和最佳实践指南。该存储库的目标是构建一套全面的工具和示例，以利用计算机视觉算法、神经体系结构和实现此类系统的最新进展。我们不是从头开始创建实现，而是利用现有的最先进的库，围绕加载图像数据、优化和评估模型以及向上扩展到云来构建额外的实用程序。此外，在此领域工作多年后，我们的目标是回答常见问题，指出经常观察到的陷阱，并展示如何使用云进行培训和部署

我们希望这些示例和实用程序可以通过按数量级简化从定义业务问题到开发解决方案的过程来显著缩短“上市时间”。此外，示例笔记本将作为指南，并以多种语言展示工具的最佳实践和用法

这些示例提供为Jupyter notebooks也很常见utility functions所有示例都使用PyTorch作为底层深度学习库

目标受众

我们这个存储库的目标受众包括具有不同计算机视觉知识水平的数据科学家和机器学习工程师，因为我们的内容是纯来源的，目标是自定义的机器学习建模。所提供的实用程序和示例旨在作为解决实际视觉问题的加速器

快速入门

要开始，请导航到Setup Guide，其中列出了有关如何设置计算环境和运行此Repo中的笔记本所需的依赖项的说明。设置环境后，请导航到Scenarios文件夹，开始浏览笔记本。我们建议从图像分类笔记本，因为这引入了其他场景也使用的概念(例如关于ImageNet的预培训)

或者，我们支持活页夹只需点击此链接，即可在网络浏览器中轻松试用我们的笔记本电脑。然而，Binder是免费的，因此只提供有限的CPU计算能力，并且没有GPU支持。预计笔记本的运行速度会非常慢(通过将图像分辨率降低到例如60像素，这在一定程度上有所改善，但代价是精确度较低)

场景

以下是此存储库中涵盖的常用计算机视觉场景的摘要。对于每个主要场景(“基础”)，我们都会提供工具来有效地构建您自己的模型。这包括在您自己的数据上微调您自己的模型等简单任务，以及硬性否定挖掘甚至模型部署等更复杂的任务

场景	支持	描述
Classification	基地	图像分类是一种有监督的机器学习技术，用于学习和预测给定图像的类别
Similarity	基地	图像相似度是一种计算给定一对图像的相似度分数的方法。在给定图像的情况下，它允许您识别给定数据集中最相似的图像
Detection	基地	对象检测是一种允许您检测图像中对象的边界框的技术
Keypoints	基地	关键点检测可用于检测对象上的特定点。提供了一种预先训练的模型来检测人体关节，以进行人体姿态估计。
Segmentation	基地	图像分割为图像中的每个像素分配类别
Action recognition	基地	动作识别，用于在视频/网络摄像机镜头中识别执行的动作(例如，“运行”、“打开瓶子”)以及各自的开始/结束时间。我们还实现了可以在(Contrib)[contrib]下找到的动作识别的i3D实现
Tracking	基地	跟踪允许随时间检测和跟踪视频序列中的多个对象
Crowd counting	Contrrib	统计低人群密度(如10人以下)和高人群密度(如数千人)场景下的人数

我们将支持的CV方案分为两个位置：(I)基地：“utils_cv”和“Scenario”文件夹中的代码和笔记本遵循严格的编码准则，经过良好的测试和维护；(Ii)Contrrib：“contrib”文件夹中的代码和其他资源，主要介绍使用尖端技术的不太常见的CV场景。“contrib”中的代码没有定期测试或维护