加入收藏 | 设为首页 | 会员中心 | 我要投稿 衡阳站长网 (https://www.0734zz.cn/)- 数据集成、设备管理、备份、数据加密、智能搜索!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

我被“非结构化数据包围了”,请求支援!

发布时间:2019-09-10 14:24:08 所属栏目:教程 来源:数据技术及产品部
导读:阿里妹导读:非结构化数据的内容占据了当前数据海洋的80%。换句话来说,就是我们都被非结构化数据包围了。由于非结构化数据的信息量和信息的重要程度很难被界定,因此对非结构化数据的使用成为了难点。如果说结构化数据用详实的方式记录了企业的生产交易活

相关论文发表于 2009 年,最初作为一篇研究海报在迈阿密海滩会议中心的角落展示出来。但没过多久,这个数据集就迅速发展成为一项年度竞赛,衡量哪些算法可以以最低的错误率识别数据集图像中的物体。许多人都认为 ImageNet 竞赛是如今席卷全球 AI 浪潮的催化剂。

尽管经历了很多艰辛,但是最终 ImageNet改变了人们认识数据和算法的方式。“ImageNet 思维所带来的范式转变是,尽管很多人都在注意模型,但我们要关心数据,”李飞飞说:“数据将重新定义我们对模型的看法。”

自 2010 年以来,谷歌、微软和 CIFAR 推出了其他一些数据集,因为事实表明深度学习需要像ImageNet 这样的大数据。

“图片,很多很多的图片”,作为非结构化数据的一种,ImageNet向我们展示了图片的巨大威力,而我们相信,这只是刚刚开始。

我被“非结构化数据包围了”,请求支援!

图: ImageNet 图片来源:《数据科学浅谈》

店小蜜:智能客服的养成之道[2]

2016年3月,一个名叫“我的小蜜”的人工智能客服就出现在了手机淘宝和手机天猫的APP中,它可以说是店小蜜的前身,当时,它的主要工作是担当平台客服,为用户解决催发货、退货退款、投诉和售后保障等问题。“我们开发‘我的小蜜’,是为了让用户能以最快的方式找到解决问题的途径。” 小蜜的产品经理南山回忆起团队初创时的往事,这样说道。

整个淘宝天猫电商平台的用户有好几亿,如果让每个用户都能用快速客服通道来联系客服,显然会对淘宝客服团队造成巨大压力。怎么办呢?人力不能解决的问题,就靠技术来解决。客服人员忙不过来,就请智能客服来帮忙。阿里每天大量的真实交易互动,让用户的问题都以数据的形式沉淀下来。通过这些数据,开发团队可以得知哪些问题最高频。而这些数据也让小蜜不断地进行强化学习,变得越来越“聪明”,应答准确度越来越高。

客服系统产生的文本、语音成了丰富的宝藏,通过对这些文本、语音的智能化处理,店小蜜逐渐成为了“最懂电商的客服机器人”。

“知识,各行各业的知识”,店小蜜的成功从一个角度证明了对文本、语音的运用,可以释放出来的巨大能力。我们相信,这只是刚刚开始。

我被“非结构化数据包围了”,请求支援!

图:客服机器人 图片来源:浙江在线-钱江晚报

智能安保:智能化办案[3]

2018年11月5日到10日,首届中国国际进口博览会在上海成功举办。本次进博会有一个大的亮点:智能安保。

在本次安保活动中,上海公安局“智慧公安”产品“智能警务中台”成功亮相,通过对辖区1.5万摄像头的全量接入,实时解析,实现民警的智能化办案。基于全网全视频数据结构化的提取,实现人、车多维特征布控,触网自动告警,融合视频结构化信息、MAC、IMEI、RFID等进行多维研判,对目标嫌疑人进行行为轨迹跟踪。

我被“非结构化数据包围了”,请求支援!

图:首届中国国际进口博览会 图片来源:环球网

“视频,流动的视频”,首届中国国际进口博览会上智能安保的成功应用,使我们相信了对视频监控智能化处理的巨大。我们仍然相信,这只是刚刚开始。

狂奔的应用:被“惯坏”的应用

随着网络的加速和人工智能的兴起,仿佛一夜之间信息流、短视频、网红直播这些新的娱乐方式涌现在人们面前,躁动的人们搅动着躁动的市场,躁动的市场搅动着躁动的应用。头条、抖音、斗鱼、小红书、淘宝直播等等新的娱乐或电商模式喷薄而出,网红经济、内容电商、信息流等新兴的词汇也如雨后春笋般涌现出来。正如苹果广告Think different里面描述的那样:“你可以赞美他們,引用他們,反对他们,质疑他們,颂扬或是诋毁他们,但唯独不能漠视他们。”也许你跟我一样,对某些产品不以为然甚至嗤之以鼻,但是新的娱乐形态毕竟挡无可挡,每个人都不能置身事外。

仔细分析,其实不难发现,当我们经历了互联网时代的洗礼,对信息的渴望被极大的唤起,常规的结构化数据交互已经不能满足人们的欲望,而伴随着技术成熟而来的非结构化数据:图片、视频、语音,正式登上舞台,催生着一个接一个的应用一路狂奔。

我被“非结构化数据包围了”,请求支援!

图:狂奔的应用 图片来源:百度百科

非结构化数据的问题和挑战

非结构化数据虽然具有很大的价值,但是当前对非结构化数据的处理和管理却存在很多问题和挑战,下面结合我们的理解对这些问题和挑战进行一个初步整理。

实体和关系分离

非结构化数据因为其自身不具有规整的形式,因此不能像结构化数据一样按照二维表的形式存储。因此其实体和关系是分离的。

举个简单例子:对于淘宝商品的图片,其商品的信息是通过二维表的形式存储的,但是主图的图片却存在在OSS中,需要通过cdn映射才能访问图片内容。

(编辑:衡阳站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读