当前位置:首页 > 知识库 > 正文

图像预处理技术 快手评论的赞 -快手粉 - 免费快手粉丝的网站

客服   图像预处理技术 快手评论的赞 -快手粉 - 免费快手粉丝的网站  第1张 拼多多砍价dy抖音ks快手 自助商城点击进入

文丨杨亚茹

在巨头涌动的人工智能技术领域,50人左右的团队,两年实现千万级盈利,是擅长智能语音和机器视觉的极限元成立以来的最佳简介。

2014年8月,已经是全球最大比特币交易平台OKCoin联合创始人的雷臻,选择进军人工智能行业,随即创办了极限元。创业团队成员在语音识别、语音合成、声纹识别和语音检索等方面都有多年积累,智能语音技术成了极限元的先发优势。

以智能语音起家,延伸发展机器视觉。目前,极限元主要立足教育、安全、泛娱乐领域图像预处理技术,其中,安全方面有反电信诈骗、疲劳驾驶检测和互联网有害信息检测服务,泛娱乐深入直播行业的有害信息检测、广告识别及人脸特效、手势识别等服务。

雷臻说:“公司现在就是基于智能语音和机器视觉两个核心技术模块,完成所有定制化或垂直领域的解决方案。”

智能语音:技术是经络,数据是血液

科大讯飞是国内智能语音领域的大拿,思必驰、云知声等企业也是行业领先,这么算来,极限元的对手林立且都底盘稳健,面对这一市场环境,雷臻表示,“对于AI企业来说,技术的门槛不高,技术是经络,数据是血液,数据积累本身的门槛很高,把事做好的门槛更高。”

极限元与政府部门、大企业的多项签约合作是很好的佐证——巨头无法吞下整个巨大的智能语音市场,跨过技术门槛后的精耕细作依旧是小企业的生存之道。

2015年底,极限元获得千万元天使轮融资并入局智能教育,针对在线教育机构推出语音测评系统,包括中小学生的古诗词诵读和英语测评,将学生的发音和韵律通过与标准音比对,引导他们准确发音。极限元与语文出版社合作研发了两款APP,并提供前端交互服务和后台语音评测引擎整合技术。此外,极限元还推出了方言教学产品。

2016年,极限元签约360提供语音合成定制化服务、签约公安部门提供电信诈骗检测服务,签约国家安全部门提供互联网有害信息检测(涉黄、涉政、涉暴等)服务。

1.定制化语音服务

语音定制采用语音合成技术,由于语音与情感表达的紧密关系,这一技术门槛一直在迭代和升级,应用场景包括盲人手机、导航、电子读书等。

声音的采集是定制语音中必不可少的环节,这决定了音库的容量大小。真人声音定制要通过长达十余小时的原声录制,再进行标注、总结发声特点、合成、拼接等多项处理,最后生成。

在极限元,通用音库包含粤语、普通话、男声、女声等多种选择,能基本满足部分定制化需要。360手表定制的是儿童发音,则为其提供专门的儿童音库。另外,极限元还为腾讯、搜狗等企业提供了这一服务。

2.反电信诈骗

一般的诈骗电话是由人来拨打,再播放合成语音。有数据显示,2011年至2015年,全国电信诈骗案件数量从10万件飙升至约60万件,其中中老年人占41.31%。

通过技术手段识别电信诈骗尤为重要,在与江苏公安合作的标注电信诈骗解决方案中,极限元将其识别系统旁路部署在电信运营商录音采集设备上,通过检测高频外呼、采集通话录音、分析语音内容,来判断通话内容是否涉嫌诈骗,能识别11种电话诈骗类型,并进行标注。

这一技术手段具有很强的复制性,截止2017年第一季度,极限元研发的电信电话诈骗系统已成功应用在全国13个省、市、自治区。

图像预处理技术 快手评论的赞 -快手粉 - 免费快手粉丝的网站  第2张

▲ 诈骗电话信息识别

3.音频敏感信息检测

在与国家安全部门达成合作后,敏感信息检测成为极限元在安全领域的又一产品方向。通过技术手段检索网上视频,识别语音中是否含有涉恐涉暴涉政信息,进行标注。

整个音频敏感信息检测的过程中,先对音频进行预处理,降噪、统一格式等,再利用语音识别、关键词检索等步骤做内容检测,得出检测结果,准确率可以达到90%,剩余10%的检测工作则由人力完成。

泛娱乐整体解决方案,解决的是用户痛点

极限元在垂直领域的产品研发不同于一般的市场试错,而是通过观察已经服务的用户,以期新推产品与用户需求达成不谋而合的默契。

“我们在做一个垂直领域的时候发现,用户有更多不同的需求对应着不同的供应商,一个个找下来对他们来说很麻烦,我们希望能提供一个垂直领域内比较完整的解决方案。”

于是,基于语音的先天基因,极限元开始向图像发展,并于2015年获得图像识别专利,单纯的音频鉴黄技术也随即升级为“音频+图片”的检测敏感信息服务,应用于直播当中,公司与BIngo直播等二十余家直播平台形成了合作关系。

去年,直播市场用户的总使用时长达到顶峰,到今年图像预处理技术,经过野蛮生长的直播开始进入缓慢的洗牌式发展,各项管理规定的出台倒逼平台清洗直播低俗内容,平台要在规定时间段内对抽烟、违规着装、涉黄等内容进行处理,24小时寻房、技术甄别等手段相继上线。

图像预处理技术 快手评论的赞 -快手粉 - 免费快手粉丝的网站  第3张

极限元应用到直播环境中的鉴黄技术分为语音识别和图像识别。音视频有害信息监测系统首先对直播中的音视频资源提取,分别交由语音处理模块和图像处理模块。在视频的图像数据处理方面,拿到图像数据关键帧后会定时发送到处理平台上,先进行图像预处理、图像分割,再拿到有效的区域来检测,开始有害信息识别检测,完成特征提取、目标分类、判断匹配,找出里面违规的信息,提醒平台做出反应。

▲ 互联网音视频敏感信息处理

基于图像识别技术的视频涉黄检测,准确率可以达到99%以上,节省了70%以上人工审核的工作量。而这一技术也应用到了直播过程中主播未经平台同意使用二维码导流的广告识别中。

在整个直播行业洗牌过程中,主播的急功近利不仅表现在广告导流,还表现在直播内容同质化严重,艾瑞咨询的研究报告显示,37.8%的用户选择更换直播平台是因为直播平台内容质量下滑。极限元的鉴黄技术结合直播后又延伸到了平台的娱乐互动需求,顺势推出了动态的手势识别。

针对主播们经常使用的互动小动作,比如比心、抱拳、爱心、剪刀手等,极限元推出了识别特定手势、静态手势、动态手势的跟踪特效展示服务,根据主播的需求,设置打赏特定手势,系统自动识别成文字、特效动画、语音,还可应用于主播互动游戏,增加直播趣味性。

▲ 直播主播手势识别特效展示

从主打安全、教育,到推进泛娱乐领域,极限元按图索骥的产品研发思路为垂直的直播行业提供了“一条龙”服务,包括美颜、人脸道具、手势识别、广告识别、鉴黄等全品类的to B产品。

图像预处理技术 快手评论的赞 -快手粉 - 免费快手粉丝的网站  第4张

“用户需要鉴黄服务,但还有些需求又要找其他供应商,刚好我们的技术能解决这些需求,那就做一站式的服务,也省了他们对接其他公司的成本。”雷臻告诉品途,只要用户的新需求与极限元的核心技术高度匹配,那就值得去尝试,完善产品的同时,也解决用户痛点。

不碰智能家居,那是巨头的战场

一向以解决用户需求为出发点的极限元在去年5月推出了国内首款基于视频分析的疲劳驾驶检测技术解决方案,目前的产品是一款带有摄像头的小智能硬件,能在司机戴墨镜和晚上开车时,准确识别面部状态。

据雷臻介绍,疲劳驾驶检测切入的是语音交互场景,这一技术结合了语音和图像,通过大量的面部信息采集,形成模型,在识别过程中进行匹配,标注面部疲惫特征,及时给予驾驶人员提醒。

而作为B端产品,长途运输交管部门、客货运公司等对疲劳驾驶检测仪都有高强度的需求。

智能硬件是语音交互场景中的重要角色,极限元在研发疲劳驾驶检测仪时也并没有与巨头抢食的想法,雷臻表示,极限元深耕的是技术,研发的是软件,将技术放在用户提供的硬件设备中是双赢,一方面,免去用户自己研究技术的成本,另一方面,团队也会对硬件设备提出要求以达到最终匹配。

▲ 疲劳驾驶检测仪

“语音交互我们涉及的少,这是巨头们的战场,跟他们竞争,压力太大,现阶段的发展离钱也比较远,对小创业公司来说有些困难,所以我们没有去碰智能家居。”

图像预处理技术 快手评论的赞 -快手粉 - 免费快手粉丝的网站  第5张

虽然不跟巨头拼大市场,但雷臻在垂直领域也有小确幸,“在这个行业,有些就是图像识别做的好,有些又是语音识别做的好,像我们这样语音、图像双重发展的就比较少了。”

现在,已经盈利的极限元有不少于70%的收入来自智能语音,未来,雷臻的小目标是增加图像识别收入,为公司接入更多的资源,提升公司toB业务的经营效率。

对话雷臻:我们建音库不是从零开始

品途:目前极限元toG的业务比较多,跟toB服务有什么不同?

雷臻:现在为政府跟企业提供服务的差异不大,toB和toG效果已经差不多了,首先我们的指标和技术要完全满足他们的要求,其次是他们对资质的要求会比较严格,公司本身的情况都会被考虑进去,一般的企业很难为他们提供服务。

品途:通过语音、图片识别的鉴黄技术,门槛高吗?

雷臻:现在的门槛是数据的门槛和能不能做好的门槛,从10分考到80分很容易,从98分考到99分就很难,越往上,门槛会越高,对AI企业来说,通用门槛本身的差距都不大,关键就是数据积累和自己对效果的要求。我们现在推出的鉴黄技术是机器来学习的,做的越多,数据积累越多,效果也就越好,这是正向迭代的过程。

品途:极限元的音库是怎么建起来的?怎么判断音库的优劣?

雷臻:建音库还是要数据积累和技术来相辅相成,10个小时的数据肯定没有人家20个小时数据好,一个小时的数据,就算有再强的技术,都做不好,但是,数据很多了,技术很烂,同样不行。我刚创业就是专门做语音合成技术,合伙人一直是做这个行业的,刚开始已经有了几十个小时的语音,并不是从零开始,后面就不停的优化,添加参数。

音库本身有些技术门槛,包括对声音连贯、韵律、情绪的处理,技术用的好不好就有区别了,一些不专业的音库直接就能听出来,就像有些人唱歌跑调,有些人唱歌好听,判断很直观,都用不到专业的技术指标去衡量。

品途:之前的融资途径是什么?请介绍公司后续的融资计划。

雷臻:风投的逻辑主要是看公司未来的回报和成长性,我们是业内第一个确确实实能自负盈亏又比较落地的企业,所以尽管我们规模不大,之前的融资也是风投找的我们。后面的计划,对于创业公司或者是toB的企业来讲,本来就是靠经营,需要经验和积累,我们不是光要钱,我们自己也有些钱,就是看他有没有一些资源给我们,如果有的话,我们可以把数据积累和经营的效率提升。

发表评论

最新文章

推荐文章