计算机视觉概述
什么是计算机视觉?
计算机视觉是一个术语,描述了一组支持计算设备、软件、机器人或任何设备的技术; 获取、分析和处理图像。
不同的图像源可能极其多样化。 它们可以是图像、视频、3D 数据、来自医疗或工业扫描仪的数据等。 目的是让这些设备能够“看到”并根据收到的信息做出反应。
就其复杂性和用例而言,计算机视觉通常与语音识别进行比较。
您可能不熟悉这个概念和计算机视觉背后的技术。 但是,您是否知道一种名为 OCR(光学字符识别)的流行技术,多年来一直用于识别照片或扫描文档中的文本。 几十年来,银行系统一直使用手写识别来读取支票。 物体识别早已应用于许多行业,以实现工厂质量控制或产品分类的自动化等。
查看更多:了解康耐视 OCR 字符识别技术
计算机视觉与人工智能(AI)密切相关,因为设备不仅需要看到,而且在识别阶段之后,它必须立即分析和解释它所看到的内容,从而采取适当的行动并与环境交互。
计算机视觉与图像处理
请注意,计算机视觉和图像处理之间不应混淆。 图像处理是对数字图像的分析或执行算法,包括分类、提取、编辑或过滤……图像处理是指用于视觉增强的技术和方法,涉及信息方面,而计算机视觉则面向真实动作。
虽然计算机视觉的主要应用显然是图像管理,但它也可用于执行各种操作,包括对象识别或事件检测。
计算机视觉的一些应用领域
机器人和自动驾驶汽车等自动化机器是计算机视觉技术广泛应用的领域。 然而,日常生活中越来越多的领域正在使用计算机视觉技术:
医疗的
模式识别和图像处理领域不断出现重大进展。 与此同时,医学界和医疗保健领域的专家考虑医学成像(为临床分析和医疗干预创建身体内部视觉图像的技术,以及身体的视觉表示)也就不足为奇了。某些器官或生理组织的功能)已成为其工作方式的重要组成部分,从而带来更好的诊断工具并显着提高您采取更有效行动的能力。
医学图像分析对于预测分析和治疗有很大帮助。 例如,应用于内窥镜成像的计算机视觉可以提高数据的有效性和可靠性,从而降低结直肠癌相关的死亡率。
又比如,计算机视觉技术也为手术提供技术支持。 颅骨 3D 成像建模作为脑肿瘤治疗的一部分,为先进的神经外科手术准备提供了巨大的潜力。 此外,随着深度学习越来越多地应用于人工智能技术,利用其对肺结节进行分类,为肺癌的早期诊断取得了巨大进展。
零售业
计算机视觉在商店中的应用越来越多,尤其是帮助改善客户体验。 Pinterest Lens 是一个搜索引擎,它使用计算机视觉来检测对象,就像 Shazam 检测音乐一样。 通过在商店中使用智能手机应用程序,您可以直观地看到产品的外观并获得与其相关的其他产品。
面部识别是计算机视觉的一个著名应用,可用于购物中心或商店。 Lolli & Pops 是一家美国糖果店,它正在利用面部识别技术为顾客赚取忠诚度积分。 “想象一下:您走进您最喜欢的商店,销售人员会叫出您的名字来打招呼,只要您需要他们,他们就会与您分享您可能感兴趣的最新产品。非常细心。” 技术创新可以为每个客户提供个性化推荐。
计算机视觉在零售领域的用例似乎没有限制,其中还包括分析商店的货架或地板,甚至分析顾客的情绪。产品,特别是通过图像基于算法检测情绪。视频并分析最小的面部表情,对其进行处理,最后解释一般情绪。
结束排队付款可能是商店技术创新的最终目标。 计算机视觉与人工智能相结合最终可以消除噩梦般的结账队伍。
亚马逊开发了一种新模式 Amazon Go,它利用计算机视觉、物联网和人工智能等技术来检测、跟踪和分析店内顾客的行为和动作,以实现支付流程自动化并向他们发送电子发票。
银行业
当谈到人工智能技术与银行业的结合时,我们主要想到的是欺诈检测。 尽管计算机视觉是该领域尖端技术特别关注的领域,但它可以进一步推动事物发展。 图像识别应用程序使用机器学习来分类和提取数据,以监控身份证或驾驶执照等文档的身份验证,可用于改善用户体验、远程客户体验并提高安全性。
安防领域
计算机视觉的广泛而多样的用途也适用于安全领域。 无人机(UAV)可以利用计算机视觉系统来增强人类检测野火的能力,使用红外(IR)成像作为野火监测协议的一部分。 先进的算法分析视频图像特征(例如运动或亮度)来检测火灾。 该系统正在执行有针对性的提取,以轻松检测模式并计算方法来查看实际火灾和可能被误认为火灾的运动之间的差异。
无人机还可以通过监测或研究危险区域来提高消防行动的安全性和效率。 消防员可以运行基于先进算法的分析来检查烟雾和火焰、评估风险并预测火势蔓延。
先进的计算机视觉技术生态系统
根据 ResearchAndMarkets.com 的研究,“2018 年人工智能在计算机视觉市场的价值预计为 36.2 亿美元,到 2023 年预计将达到 253.2 亿美元。”
计算机视觉的技术数量非常广泛,包括图像识别、机器学习或云计算或边缘计算利用 CPU 资源之前用于识别物体、人以及动作的技术。许多现实应用中的存储功能,例如需要在创建信息的地方处理信息的无人机。 在这些先进技术中,机器学习和深度学习促进了计算机视觉的发展。
机器学习 – 机器学习
机器学习是一类旨在为应用程序提供更高准确度的算法。 有趣的一点是,这些算法不一定有明确的计划来实现这一点。 基于输入数据流、定期统计和高级分析,他们可以不断提高结果的价值。
机器学习依赖于数据集的巨大潜力。 简而言之,数据集本质上是相关数据的集合,这些数据组合在一起可以提供更多价值。
如今,计算机视觉生态系统为技术社区提供了大量免费的图像数据。 例如,哥伦比亚大学的图像库共享一个包含 100 个不同物体的数据集,这些物体是在 360 度旋转的各个角度捕获的。
深度学习——深度学习
深度学习是人工智能的一部分,它依赖于人类如何学习以获得更好知识的原理。 因此,它提供了改进流程的可能性,包括计算机视觉结果的准确性。
深度学习算法依靠神经网络将子流程映射为概念层次结构。 复杂的概念被分解为一系列简单得多的概念。
人脸识别——Face ID
借助深度学习算法,面部识别可以映射并存储数字身份。 这种类型的生物识别可以与当前流行的语音、虹膜或指纹识别技术进行比较。
这个概念出现于 2011 年,当时谷歌证明可以仅使用未标记的图像创建人脸检测器。 他们设计了一个系统,可以自行学习来检测猫的图像,而无需向系统解释猫的样子。
当时的神经网络是由1000台计算机、16000个核心组成的。 参与该项目的 J. Dean 博士在接受《纽约时报》采访时解释说,系统接受了 1000 万个随机 YouTube 视频,在训练过程中他们从未告诉系统“这是一只猫”。所以它本质上发明了猫的概念。
日常生活中的计算机视觉
如今,智能手机可以使用高质量的摄像头进行识别。 例如,苹果的 iPhone X 运行 Face ID 技术,因此用户可以解锁手机。 这些面部数据被加密并存储在云端,它也可以用于其他目的,例如支付过程中的身份验证。
在中国,研究计算机视觉技术的专家正以稳步增长的速度将其融入日常生活。 中国消费者不仅使用智能手机和设备的面部识别功能作为首选支付方式,而且该技术还有助于侦查和逮捕犯罪分子。
这对人类意味着什么?
计算机视觉正在安全领域用于搜寻罪犯、预测人群的紧急移动等。
通过开发越来越复杂和高效的先进计算机视觉算法,我们正在改进其结果和人类语音识别,因为这两个主题都基于相同的原理。比较。 所有这些都有助于增强人工智能和机器人的态势感知能力。
深度学习的不断增长的能力和机器学习算法的力量引起了人们不断增加的关注,或者至少需要特别关注它们的发展。 具体来说,这些技术正在引发隐私和道德问题。
然而,这并不意味着我们应该停止研究。 相反,就像任何技术发展一样,计算机视觉必须受到全球每个人的监督,而不仅仅是任何工业或军事大国的监督。