检信专注心理
用技术创新 做行业先驱
检信ALLEMOTION
  • 智慧监狱:三秒识别在押人员情绪抑郁、压力系统
    智慧监狱:三秒识别在押人员情绪抑郁、压力系统为深入贯彻落实全国司法行政信息化工作推进会议精神,进一步加快推进“智慧监狱”建设,2018年12月司法部制定了《关于加快推进“智慧监狱”建设的实施意见》,发布了《智慧监狱技术规范》,随着智慧监狱口号的提出和全国智慧监狱示范点的快速落地,今年已全面进入到智慧监狱、智能化监狱建设阶段。  而在多年的发展中,随着各式各样的安防设备逐一被应用在监狱后,这些系统在保障监狱内外部安全方面都发挥了非常重要的作用。但随着监所安全管理需求的提升,监狱安防应用中的一些问题也逐渐凸显。  众所周知,我国的“人均警力”数量在世界范围内都属于倒数,且因为文化与历史因素导致狱警数量不足,这就导致了狱警普遍工作强度大,无法及时预警、预防突发事件的发生。  非接触性情感识别助力智慧监狱  日前,“非接触性情感识别”技术在广东省番禺监狱进行了国内的首次应用。据悉该系统通过人脸识别系统点名,罪犯只需望着摄像头三秒钟,后台即可获得包括体温、呼吸、心率、眼动、表情等五个指标。人工智能系统用算法将生理指标转换为心理指标,显示罪犯是平静,还是抑郁、愤怒。从狱内管理角度看,这套系统可有效防止暴力、自杀,防止狱内打斗和逃狱。  此外,根据大数据分析,可预测服刑人员出狱后面临的情况,从而进行有效帮助并减少其再犯罪率。针对有重大再犯危险的罪犯,可在地方公安和司法的配合下,进行数据采集和实时监测,及时干预。以达到“物防、人防、技防、联防”四防一体化管理。  新技术不断落地,传统监狱不断转型  我国监狱众多,随着一项项新技术的不断落地,为传统监狱赋予“智慧”也随着政策的助力提上了日程,而对监狱已建系统和产品进行智能化升级改造主要可以从两个维度来考虑:  (1)线路的利旧。例如在监狱现状还是标清模拟摄像机的情况下,原有部署都是同轴线缆,那么进行智能化升级时可以不改变原有线路的情况下对老系统进行智能化升级改造,比如采用HDCVI智能化前端,也能实现人员特征的采集及智能化分析,同时还避免了编码、解码过程中产生的图像质量损耗。沿袭模拟标清传输的线路,可减少施工部署的复杂度,降低辅材成本及维护复杂度,以及对施工人员的技术要求。  (2)产品的利旧。例如在监狱前端已是高清网络摄像机但是并不具备智能化的情况下,可以在中心增加智能分析服务来满足监狱智能化的升级改造,智能化既有前端智能又有中心智能,可以根据监狱目前的情况选择前端智能化的设备更换或是中心智能化集中分析处理。  当监狱有了智慧 物联网、云计算、移动互联等信息技术与监管改造工作深度融合,以及人脸识别、视频智能分析等AI技术带来诸多“智慧”应用,而这些赋能于传统监狱,智慧监狱便诞生了。“智”是指智能,即将大数据、云计算、物联网、互联网+、人工智能等新一代信息技术应用到城市运行管理中,实现城市智能化运行;“慧”是指依托于这些新技术,建设“城市大脑”,实现城市运行自行探测、自行分析、自行修正,不断提升城市治理、公共服务等能力。“智”和“慧”的概念延伸和映射到当前监狱工作发展趋势和方向上,可以定义为以大数据为引领,围绕五大改造新格局,将物联网、云计算、移动互联等信息技术与监管改造工作深度融合,对监狱各类信息进行实时、精确、全面地感知、整合和分析,全方位支撑民警执法、风险管控、教育改造、队伍建设、综合保障等方面智慧化发展,实现监狱管理精细化、指挥调度立体化、安全防控精准化、刑罚执行智能化、教育矫治科学化、综合办公无纸化,助推监管改造工作在新时代实现新发展。 可以预见的是,监狱将进入一个智能化领域高速发展的时代,随着智慧监狱的口号的提出和全国智慧监狱示范点快速落地,今年已全面进入到智慧监狱、智能化监狱建设时代。经历监狱智能化目前主要用于安全保障的阶段后,监狱智能化将全面的和监狱各业务系统、业务数据进行多维融合,推动监狱智能化从感知智能向认知智能发展。目前更多监狱智能化还是处于音频、视频等数据采集、感知、分析得出结果,还没跟监狱业务深度融合,未来应用趋势更多需与业务融合达到认知智能的阶段,通过监狱业务数据加载及人工智能技术的匹配,让智能化会根据监狱业务类型、监狱不同的事件类型等去思考、推理给出处理方法,可以根据每个阶段、对应的问题指导监狱工作,给出问题的解决方案。  结语在智慧监狱建设中,通过大数据、云计算、物联网、人工智能、移动互联网等新一代信息技术总体来说是提升了监狱管理和监督的能力,实现了监狱管理模式从盲目管理到精准管理、被动管理到主动管理、粗放式管理到精细化管理、碎片化管理到系统性管理的改变。经过监狱智能化目前主要用于安全保障的阶段后,监狱安防智能化将全面和监狱各业务平台进行完善对接,智慧监狱是监狱信息化发展的未来,监狱安防智能化则是其中不可或缺的一部分。在通往未来的道路上,还有许许多多障碍和困难需要跨越和克服,但总体趋势是乐观
    2021-03-22
  • 检信推出便携一站式智能审讯谈话系统
    检信推出便携一站式智能审讯谈话系统一、产品介绍1、产品功能及应用 检信便携一站式智能审讯/谈话系统主要适用于监督检查、审讯调查部门内审、外查和走读式谈话等场景,主要功能有语音微表情多维度情绪识别、同步录音录像、语音自动识别、智能笔录系统管理、智能康护等功能。督察、审讯/谈话通过语音微表情情绪识别判断谈话中对方的疑点,着重记录下来并在后续的工作中深挖问题来源处所,为督察谈话提供人工智能解决方案;同步录音录像、双份光盘同步刻录和语音自动识别转写文字等功能为案件审讯提供实时证据管理和谈话语音转写自动识别记录,代替原始的人工记录书写功能,增加办案工作效率的同时,也加强了对案件的管理功能,满足衔接司法需要,辅助提高整理笔录工作质量和效率的功能;智能笔录系统管理模块通过审讯/谈话笔录内容的自动语音识别实现笔录内容的自动生成与打印和系统案件的管理。智能康护功能实时监测审讯/谈话对象在审讯/谈话过程中血压、心率、呼吸等生理参数的变化情况,防止在审讯/谈话过程中身体生理参数出现异常。该系统与现有技术相比,通过人工智能技术的应用,以及与办案专家的认知相结合,可以大力提高工作效率、节省人力成本,也是我国目前最先进的一款智能型办案审讯/谈话解决方案,在我国也首次提出并解决了一站式智能办案审讯的技术方案,实现了产品系统的成熟应用。因此,检信智能便携一站式智能审讯/谈话系统从谈话、案件审讯、笔录文档管理等方便实现了移动式与一站式督察与办案等功能的需求,可以广泛应用于公监法、2、内置功能介绍1)内置语音识别功能:无需外接任何设备,开机即可使用离线语音识别功能。语音识别采用离线语音语音库,无需接入互联网,符合监察委保密工作需求。语音识别率可达到95%,满足工作使用需求,实时识别率<0.2秒,体验感好。2)内置角色分离阵列麦克风:无需外接任何设备,配合语音识别服务器,开机即可实现声纹的识别与应用。3、功能参数1)采用嵌入式Linux、Windows双系统操作,超薄设计,内置笔录系统,设备内置4个1080P高清摄像头,Linux内置全向麦克风阵列,Windows内置角色分离麦克风阵列,集语音微表情两维度情绪识别、笔录系统、双光盘刻录、视频显示、硬盘备份、网络传输等功能于一体,安全稳定。2)内置语音识别模型,离线的语音识别引擎模块,设备无需外接任何服务器即可做到离线语音转写。3)内置角色分离麦克风,设备内置双角色分离阵列麦克风,无需外接任何拾音器,配合语音识别引擎即可做到角色分离功能。4)采用嵌入式Linux、Windows双系统操作,超薄设计,内置笔录系统,设备内置4个1080P高清摄像头,Linux内置全向麦克风阵列,Windows内置角色分离麦克风阵列,集双光盘刻录、视频显示、硬盘备份、网络传输等功能于一体,安全稳定。5)设备支持6路网络 1080P高清视频输入,具有HDMI输出接口,分辨率达到1920*1080。6)设备可支持各通道单画面、画中画、三画面、四画面显示模式。7)设备视频编码采用H.264,High Profile,H.265,的视频编码标准。8)设备含有1路音频输入接口,音频编码采用AAC 48KHz采样编码,同时含有1路3.5监听接口,一路内置扬声器。9)设备内置双光驱,将审讯(讯问)现场的音像信息,实时同步直接刻录在光盘中。并且在刻录前自动格式化并检测光盘有效性,对不符合刻录要求的光盘自动弹出,刻录结束后自动封盘。 10)嵌入式Linux内置480G SSD硬盘,Windows内置250GB SSD硬盘,对审讯(讯问)现场的音像信息,实时同步备份,确保数据信息安全存储,同时支持外接移动硬盘进行实 时同步刻录。11)设备采用双光驱,支持直刻支持,支持4.7G单层、单面双层8.5G实时刻录。使用标准4.7G容量DVD光盘,刻录时间1小时至24小时任选二、产品外观展示三、语音微表情智能情绪识别模块1.语音采集实时变换分析:实时显示采集的波形,并显示能量图;同步显示多种参数数据的二维图形并进行系统分析;*分析结果排列、保存和实时的柱形图统计;录音过程可以手动打入标记,方便定位查找该时间点;*采集过程中以及结束后,可以马上点击任何一个分析点,播放同步的语音以及视频;问话模式下,可以不分析不需要的声音;生成的测试案件自动归入录音数据信息库,不用导入即可系统分析。2.录音数据信息库管理和分析:1)管理查找所有的测试案件,可以完善案件和被测人信息,包括查找、导入、增加、修改、删除操作功能,信息包括ID、姓名、年龄、性别、民族、籍贯、婚姻状态、学历、职务、电话、住址、案件、案情、其他、创建时间;*可以直接各种编码格式的视频文件和音频文件;2)分析界面包含各种心理参数的二维波形图、系统特征分析、参数重要性、超标指示和排列次序、分析模式选择、视频显示、统计报告生成,*各种心理参数是明确的中文标识;3)数据同步性:*能绘制并同步显示心理图谱曲线;*语音以及视频微表情同步播放分析;心理参数、系统特征分析、数据指示,语音波形图完全同步,标注信息可以随时插入并同步;4)声纹识别功能,自动把问询人员和被测人员的语音分离;5)语意识别功能,快速把说话内容以文字的形式呈现;6)进行面部表情分析,*获得兴奋、悲哀、愤怒、惊奇、惧怕、厌恶、轻蔑、关注、烦倦、困惑、心率、眼动、微表情强度等参数指标;7)*在要分析的语音段内,可以一帧帧的播放视频,观察微表情和微反应;8)统计报告可以生成为word和pdf格式,*抓取到的微表情自动插入到报告相应的文字下面,以图文的方式直观呈现。3.同步录音录像转换工具:兼容国内所有视频监控和同步录音录像格式,将具有独特的压缩算法的特殊录像格式转换为通用的视频格式,便于管理、播放和选择用于分析;4.音视频分割程序:将长时间的音频和视频文件分割成需要进行分析的片段,支持所有的格式,分割完成的片段,可以直接导入系统数据库并进行分析;常见表情、微表情、微反应图文辅助查询系统,能够对发现的行为、表情进行查询,练习;四、语音识别模块1、本地化部署:系统各组件,包括语音识别引擎、模型训练工具等均能私有化部署2、接口:以API和SDK的方式提供支持HTTP协议和Websocket协议的语音识别调用接口3、兼容性:未来语音平台软件版本升级改造时,需要保证定制化接口的向下版本兼容4、识别效果(16K):在普通话,且没有明显的电流、线路声音和背景噪声的情况下,整体字准确率可达到90%。 验收音频采样格式:16k采样率、16bit采样位深、单通道。5、识别算法:采用最先进的Dfsmn-ctc基于word进行建模,确保识别率和并发能力均行业领先6、中文连续听写:提供中文的连续语音听写功能7、中英文混合听写(16K):提供中英文词级别混读听写功能,例如:你觉得how are you doing是比较private的问题8、数字识别:提供数字串听写功能9、字母识别:提供字母识别功能10、标点智能预测:提供标点智能预测功能11、端点检测:提供端点检测功能,用户语音的起始点、结束点检测12、离线ASR实时率:离线场景下,语音识别引擎的处理效率。离线ASR实时率(RTF)定义为:在确保机器满负荷的工作状态下,语音引擎处理一段时长为a的音频信号所花费的时间b,则实时率为b/a/核数该指标约为0.1713、自主优化能力:提供本地离线版的ASR自助优化能力或工具;14、热词优化能力:支持本地化秒级生效的热词自主优化能力15、语言模型优化能力:支持本地化分钟级的大数量语言模型优化能力(一般几分钟, 30分钟)16、角色分离:具备自动区分问和答2个角色的能力。并且支持自定义修改问和答的名字。五、智能笔录系统模块1、系统采用B/S、C/S结合的架构,PC客户端同时可以使用web浏览器访问、桌面式应用两种工作模式;2、一键式安装,所有的安装文件都在一个可执行的安装EXE程序中,直接按照说明书一步步安装,方便快捷;3、提供了灵活的自定义笔录问话模板,可以自己添加,也可以导入以往的问话模板;4、支持离线语音识别,支持角色分离功能,全自动、半自动的语音转文字,文字自动生成问答的谈话模式;7、支持语音播报,支持精准有感情的朗读告知书等文字;8、支持谈话笔录问答回放;9、支持谈话视频回放;10、支持谈话过程中的语音识别回放;12、支持同步定位谈话回放视频、语音识别、测谎仪数据、笔录,回放做到最大限度还原谈话全过程;14、支持导入导出笔录模板文件,支持导出Word、PDF笔录;15、支持脱网单机设备精致笔录制作;16、支持快速回填过往人员的信息、支持身份证自动读取人员信息;17、支持省市区县多级架构的数据同步;18、支持对同步录音录像设备的实时控制;19、提供简单的数据统计分析;20、支持手动/自动检测笔录进行中的状态并进行暂停谈话操作;功能点1、提供用户分角色,分前后台登录和管理系统;2、提供分用户管理案件、笔录的功能;3、提供一套快速问答笔录制作功能;4、提供详细的案件询问笔录的人员信息、类型、审讯信息输入功能;5、提供方便的自定义笔录类型、笔录模板类型、笔录问答类型功能;6、提供谈话信息查看、谈话笔录查看、谈话问答模板查看和编辑的功能;7、提供全自动、半自动、手动三种谈话笔录制作的功能;8、提供精准的分角色语音识别,语音转文件功能;9、提供低延时高清晰度远程直播画面;10、提供专业的非接触式生理分析数据展示功能,实时监控被询问人的生理状况;11、提供自定义编辑笔录导出模板功能;12、提供完整的笔录,可自定义的笔录文件导出(Word、PDF)功能;13、提供告知书、笔录问答模板、笔录导出模板、谈话笔录的导入导出(Word、PDF)功能;14、提供谈话视频回放、谈话笔录回放、谈话语音识别回放、谈话身心监护回放功能;15、提供谈话回放同步并且联动定位视频、笔录、语音识别、身心监护的功能;16、提供回放身心监护数据排行榜,可以准确定位谈话过程中被询问人的心理波动时刻,提高工作效率;17、提供人员、笔录、模板等相关数据的统计与汇总;18、提供手动/自动检测笔录进行中的状态并进行暂停操作;19、提供实时检测各组件服务的状态,方便判断平台维护;20、提供回放校准录像同步语音识别的同步时间;六、同步录音录像、双份光盘同步刻录系统运行时,启动同步录音录像功能,实现对督察、审讯办案的全程实时保存与备份。七、智能康护功能可以实时监测谈话对象的心率、血压、血氧等生理参数。
    2021-01-29
  • 智能诊断凭声音判断心脏病
    智能诊断凭声音判断心脏病日前医疗机构的研究者发现,心音和心脏病之间可能存在某种关系。这意味着在未来医生可能会把声音分析软件当做一种无创的互补性诊断工具。医疗机构并公布了研究结果。他们在冠状动脉显像仪之前使用一款智能手机 App 来监测声音信号。在这个双盲实验中,有 120 个病人(患有心脏病的志愿者)和相应的对照组参与其中。研究者识别出了一种可能使冠状动脉疾病发生的几率增加 19 倍的声音特征。研究者也识别出 13 种与冠状动脉疾病有关的声音特征。当描述一件消极的经历时,所记录下来的病人声音区别最为明显。“这项研究表明,心音特征和冠状动脉疾病之间可能存在潜在的关系,”研究者在美国心脏协会科学年会的海报上写到,“心音声音特征分析可能辅助医生在表现出胸痛的病人中预测冠状动脉疾病的可能性,尤其是在远程医疗的情况下。”通过使用研究语调,而不是讲话实际内容或语境的技术,这款软件将智能手机和便携式麦克风设备转换成心理健康传感器。这家公司目前已经推出两款免费面向消费者的应用,Moodie 和 Empath,还有一款面向临床医生的叫做 Beyond Clinic。这家公司把它当作衡量情绪的一种方法,并在不同的场合进行展示,比如在工作健康场所或市场调研中,甚至应用于最近特朗普和 Megyn Kelly 之间的采访中。今年 9 月份,推出了一个研究平台,用户可以在上面利用软件来检测身体状况,目的在于通过各种健康相关问题的声音来识别生理指标。目前这家公司已经有相关数据表明,包括帕金森或者其他神经认知情况在内的疾病会对声音产生更加明显的影响。医疗机构的这项发现是全球首例表明声音能够暗示身体疾病的研究。“这项研究已经进行了两年时间,而且我们实际上还需要花更长的时间才能明白其中奥义,不过,我们已经感觉到愿景已经不远。,“如果我们能够找到声音特征和生理症状的相关性,意味着这也可以继续在其他领域进行研究。”这一研究也预示着声音并不一定只能靠医生的耳朵判断,Mor 说,“听起来特别的声音不能被清晰地发出来,也不能被人类的耳朵察觉到,”他说,“这和视力有点类似,我们能看到特定光谱下的物体,但实际上还有更多的物体存在。” Mor 认为 Mayo 医疗机构的研究有机会深入到许多治疗领域,并且有潜力开发出一款应用,能够基于声音提醒人们是否存在患有某种疾病的风险。“这为我们继续研究心脏方面并且开展多中心、多语言研究打开了大门。”Mor 说道。
    2020-01-09
  • 亚马逊Alexa AI通过语音分析情绪
    亚马逊的Alexa AI团队目前正在尝试探测幸福和悲伤等情绪的方法,这些工作已于今年早些时候在研究中发表。据彭博社报道,亚马逊正在开发一种用于情绪检测的可穿戴设备,人们可以用它来了解周围人的感受。该项目已经开展多年了,在2017年,亚马逊已经开始探索情绪识别AI,但只能感知用户的声音中的沮丧,“谈论它将如何应用还为时过早,我们已经在线下探索如何使用它进行数据选择,但是在这一点上没有任何内容可以分享。”模型如何运作亚马逊对情绪检测的野心在最近几个月发表的两篇论文中可见一斑。两个项目都使用南加州大学(USC)的数据集训练模型,这些数据集包括演员约12小时的对话。然后注释10000个句子的数据集以反映情绪。“Multimodal and Multi-view Models for Emotion Recognition”检测到六大情绪:愤怒,厌恶,恐惧,快乐,悲伤和惊讶。情绪可以通过三个维度的数值直接描述:效价,即谈论情绪的积极性或消极性,激活水平,这是情绪的能量,然后是支配、控制的影响。多模式方法分析来自音频的声学和词汇信号,以检测情绪。亚马逊Alexa高级应用科学家Viktor Rozgic解释说,声学研究语音和语音特性,词汇研究单词序列。Wang表示,“声学特征或多或少地描述了你如何说话的风格,而词汇特征正在描述内容。如示例所示,它们对于情感联系都很重要。因此,在提取特征之后,它们被输入模型,在我们的例子中,这将是不同的神经网络架构,然后最终做出预测,在这种情况下是愤怒,悲伤和中性情绪状态。”亚马逊最近分享的另一篇论文“Improving Emotion Classification through Variational Inference of Latent Variables”解释了一种实现微观改善效果以预测情绪的方法。为了从音频记录中提取情感,将语音记录中的人类交互映射到一系列光谱向量,馈送到递归神经网络,然后用作分类器来预测愤怒,快乐,悲伤和中性状态。“我们正在将声学特征提供给编码器,编码器正在将这些特征转换为较低维度的表示,解码器可以重建原始音频特征并预测情绪状态,”Rozgic说,“在这种情况下,它的价值有三个层次:消极,中立和积极,而对抗性学习的作用是以特定的方式规范学习过程,使学习的表现更好。”情绪和机器智能除了提供有关亚马逊情绪检测野心的详细信息外,re:Mars的一次会议探讨了情绪识别和情绪表征理论的历史,机器学习,信号处理和支持向量机等分类器的进步也推动了工作的进展。该技术的应用范围从测量反应到视频游戏设计,商业广告等营销材料,寻找道路愤怒或疲劳的动力汽车安全系统,甚至帮助学生使用计算机辅助学习。该技术还可用于帮助人们更好地了解他人的情绪。论文:arxiv.org/abs/1906.10198developer.amazon.com/zh/blogs/alexa/post/2d8c2128-eec9-44cc-9274-444940eb0a4d/using-adversarial-training-to-recognize-speakers-emotionsEnd
    2020-01-02
  • 语音识别公司云知声换帅 黄伟从幕后走向台前
    腾讯科技 宗秀倩 12月20日报道语音识别领域的明星创业公司云知声正在经历一场隐秘的高层架构调整。腾讯科技独家获悉,公司CEO梁家恩不再担任公司CEO,转而专注负责技术领域。公司CEO由黄伟担任,正式上任已有一周有余。云知声的官方网站侧面印证了该消息的真实性。云知声在公司内部的新闻稿通报,云知声荣获中国最具投资价值企业50强的称号,云知声CEO黄伟出席了本次大会并领奖,新闻稿并配了黄伟领奖的照片。在外界看来,这似乎是空降兵式的调整。在语音识别业内的知情者看来,则是语音识别产业核心人物的回归。“黄伟终于回归了,终于从幕后走向了前台”。一位语音识别的业内人士这样感慨。黄伟是谁?作为语音识别领域的领军人物,他先就职于摩托罗拉和盛大创新院,建立了盛大创新院语音分院,后随着盛大整体战略的调整,他于2012年离职选择创业。对于黄伟创业的说法不一。盛大创新院员工表示,黄伟是盛大创新院高管中最早离开创新院的,他去创办了云知声。但在此前,云知声官方否认黄伟在这个团队中。今年10月,云知声确认完成启明创投的A轮融资,金额达1亿人民币,此时,云知声公司成立刚过500天。云知声的迅速蹿红也引起了业内人士对它的关注,也牵出了黄伟与云知声的联系:“黄伟不是明面上的公司创始人,更多的是和云知声私下里的关系。虽然没有确切的证据表明两者的关系,但实际上千丝万缕,两者走的非常近。”一位知情人士透露。腾讯科技获悉,此次黄伟正式担任CEO,与其从盛大离职后的竞业禁止协议解禁有关。“云知声这一年的飞速成长,与黄伟的幕后操盘紧密相关。”上述人士表示。对此安排,有知情人士透露,黄伟对资本方等较为熟悉,更容易掌控全局。梁家恩是典型的技术型人才,专注技术更为适合。“在盛大创新院时黄伟是梁家恩的领导,创业后先由梁家恩担任CEO,黄伟在幕后。条件许可后,黄伟再走到前台,这很顺利成章。”作为创业公司,云知声一年的成长有目共睹。“在语音识别领域,百度已经做了一年多,云知声也做了一年多,但是云知声的识别技术比如识别的准确度已经比百度高出一大截。”一位语音识别的从业人士这样评价,“在语音识别的创业公司中,云知声是做的最好的。”梁家恩把创业的阶段性成功归因于强大的核心技术团队和平台技术团队,能够在一年时间里,实现上市公司需要3-5年才能构建的语音识别服务平台。“一年来,语音识别错误率下降60%,识别速度提高3倍以上。”云知声CEO梁家恩对腾讯科技表示。在这个节点上,在语音识别领域的大爆发的前夜,复盘云知声一年的黑马式崛起,颇有一番意味。语音识别产业大爆发“所有手机制造商都在投资语音、拓展语音技术领域的投资,打造更优雅的设计并 将其深入集成到手机中。”美国最大的语音识别技术公司Nuance高级副总裁迈克尔•汤普森这样说。在推出Siri应用两年后,今年苹果在麻省理工大学 (MIT)附近组建神秘办公室,用以做Siri 语音识别技术的研发。微软正在研发代号为“Cortana”自有语音个人助手软件,并计划在下一个Windows Phone平台大升级中推出,以抗衡Google Now及Siri。至此,苹果、谷歌、微软、英特尔等国际巨头均重金投入语音识别技术。在中国市场上,语音识别技术公司也有几大派别较力:第一派来自互联网巨头在语音识别技术上的布局,比如腾讯、百度、搜狗等围绕自己的产品生态系统做语音技术,用来为产品服务。微信的语音对讲应用已经成为人们日常联络的必备。360也有意进军语音识别领域,曾传出与科大讯飞谈合作事宜,但至今未有明确信息。第二派来自专业的语音语义识别公司在移动互联网上的延伸。比如科大讯飞去年专门成立移动互联网事业部做移动应用,美国的Nuance在上海也设立办事处拓展以多语种语音识别应用为主的中国市场。第三派来自于新兴的创业公司,如云知声、思必驰等,具有互联网公司的基因,长 势凶猛。还有一派专做部分语音语义技术的应用,比如擅长语义解析的虫洞(获微软首期云加速器项目支持)、智能360(周鸿祎做天使投资),以及做微信语音 生活搜索的出门问问(前谷歌语音识别技术员工李志飞创办),他们自己做语音语义识别应用的一部分,另一部分技术会借助科大讯飞等厂商的技术来完成。刚刚过去的几个月,基于语音识别技术的角力进入前所未有的白热化阶段。 9月7日,创业公司思必驰宣布重新定义人机交互体验的方向,高调推出基于语音识别和语义理解的人机对话。9月中旬,老牌语音技术公司科大讯飞宣布自主研发的离线语音听写引擎将于9月下旬正式发布,将应用于“讯飞输入法”等产品。10月19日,云知声在确认融资消息的同时,也发布了离线语音听写技术,并发布了语义云。今年10月28日,科大讯飞语音云发布三周年,讯飞语音输入法用户超过1亿。黄伟的故事在这轮语音识别技术热潮中,有个身影本该成领头羊但却落寞四散缺席,那就是盛大。与科大讯飞相比,盛大当年的语音识别技术并不弱。曾经领导盛大的语音识别团队的核心人物是黄伟。同刘庆峰一样,黄伟毕业于中国科学技术大学,2004年加入摩托罗拉中国研究中心(MCRC)担任资深研究员。在摩托罗拉工作期间,他带队开发出世界上首个手机声纹认证系统,并完成多项语音交互产品研发。但在金融危机期间,摩托将整个语音识别团队出售给Nuance。黄伟拒绝被Nuance收编,于2009年7月加入盛大网络旗下的创新院,2010年10月创建了语音分院,力图将语音识别技术与盛大旗下的互动娱乐系统相结合,延展到用户端。2010年,盛大语音团队在美国国家标准技术署(NIST)举办的声纹识别评测(SRE)大赛中,力压麻省理工、斯坦福研究中心、IBM等众多名校、名企,在在9个单项任务中获得5个单项第一,整体综合指标第一。梁家恩毕业于中国科学技术大学,随后进入中科院自动化所工作,2011年加入 盛大创新院,在盛大语音分院工作,担任高级研究员一职。不过,随着2012年盛大创新院的战略调整,语音团队从创新院剥离到盛大掌门科技,由陈大年掌管。语音团队的成员开始各寻出路。盛大语音团队的几个人选择了创业,同样做语音识别,定名为“云知声”。但云知声更倾向于强调自己的技术积累来自于中科院自动化所,而非之前曾工作过的盛大。黄伟在其中的角色耐人寻味。2012年夏天,盛大创新院离职员工QQ群里,传来了黄伟创办云知声的消息。一位前盛大创新院员工表示,“黄伟是盛大创新院高管中最早离开创新院的,他去创办了云知声。”但云知声官方否认黄伟在云知声团队中。来自云知声的官方消息显示,公司创始人有两位,一位是梁家恩,担任公司CEO,另一位是康恒,担任公司CTO,负责平台业务部。对于黄伟与公司的关系,腾讯科技曾向云知声市场负责人求证此事。该负责人表示,“黄伟和我们公司没有什么关系。”但他也表示,黄伟和梁家恩是师兄弟关系,也会指导云知声的业务。云知声的内部人士透露,黄伟离开盛大研究院后创办了移动互联网应用音乐雷达,和云知声团队在同一座大厦办公。网站信息显示,两家公司都在北京海淀区财智国际大厦C座,云知声在15层,音乐雷达在19层。音乐雷达的一家合作伙伴的负责人证实黄伟是音乐雷达的创始人之一,并和黄伟谈过音乐方面的合作。对于外界对黄伟和云知声之间关系的猜疑,他表示,“不出面创立公司,但可能通过代持的方式运营公司,这在圈里也比较正常。”互联网的节奏对云知声而言,过去一年来,以快取胜、唯快不破的节奏在语音识别领域快速扩张业务,打造知名度。在与其他公司的语音技术解决方案不相上下的情况下,云知声采取先抢占市场后再优化的策略。去年11月,云知声和搜狗语音助手达成合作,今年3月,和锤子科技达成合作,5月和乐视TV达成合作,8月又和inwatch、易信达成合作。云知声和科大讯飞比肩一道出现在在小米、联想、智能360语音助手等很多合作伙伴的语音识别方案中。梁家恩透露,从和搜狗团队见面到第一个产品模型出来只花了两个星期,而这个时间可能其他公司连商务条款还谈不下来。乐视电视的合作也类似,从第一次和乐视团队接触到内部系统跑通到在发布会上发布只用了1个月的时间。还有一个合作客户——锤子科技。CEO罗永浩出了名的挑剔。今年,锤子ROM发布会前一周,老罗在抱怨语音识别方案迟迟未出,当晚云知声公司CTO已经将产品集成和锤子科技团队进行对接。最终,云知声和科大讯飞同时入围锤子ROM的语音解决方案。与之前的课题研究迥然不同,梁家恩发现,创业一年来,团队一直纠结技术层面的东西,他认为和实际业务结合更关键,也更重要。“做成也是技术好,做失败也是技术好”。自去年发布语音识别公有云以来,平台上已经有1000个开发者加入。通过该开放平台,“可以把门槛降得足够低,开发者无需懂具体的语音语义技术,只需要调用云知声的服务,就可做应用创新。”在开放平台背后,隐藏着云知声的商业模式逻辑:通过语音语义平台将各家的App联通,用户数据也会集中到平台上,将各个环节贯通从而实现广告等商业价值。梁家恩把它比拟为一种类似Google adsense的模式,虽然每家的量很小,但是通过聚合可以产生商业利益,各个参与方可以分成。互联网的创业节奏让云知声尝到了甜头,接下来也有风险和挑战。一个是来自平台化的风险。“腾讯、百度做语音识别都是围绕自己的主营来设计,在生态系统内来做,也会进行开放平台的建设。”上述语音识别的从业人士认为,相比较其他已经有稳定商业模式的公司涉足语音识别应用而言,初创公司做平台的风险更大。对云知声而言,另一个隐忧是尚未有核心的移动互联网产品。目前来看,云知声尝试做语音输入法插件,但主要业务是从语音识别解决方案切入,走技术驱动路线。“创业公司必须有自己的产品和服务,没有产品,很难承载用户数据,商业利益挖掘更难。”
    2019-03-12
  • 中国警用装备的发展
    中国警用装备的发展在我国,地区经济发展的不平衡造成了警用装备水平的差异,由此看来经费是影响警用装备水平提高的重要因素。巧妇难为无米之炊,没有必要的资金投入和经费保障,改善和提高警用装备就是一句空谈。在公安部制定的公安事业发展十五计划和l5年规划中,建立公安经费保障机制就是其中的一项重要内容。这种机制主要包括以下几个方面:一、通过国家立法,确定各级公安机关支出占用该级政府财政总支出的比例,建立公安经费保障机制,用法律和制度来保障公安工作所必须的经费;二、按照事权划分,建立中央和地方分级管理的保障机制。即结合公安机关的管理体制和所承担的工作任务,按照事权划分和财政相统一的原则,建立分级负担,中央补贴的经费保障机制;三、也就是前面我提到的,加大对贫困地区公安经费和基础建设的补助力度;四、完善专项经费补助机制。即由中央和省级财政建立专项经费补助机制,由公安部和省、自治区、直辖市公安厅、局按照一定比例和标准补助地方公安机关用于专项工作的补助和奖励。如金盾工程、侦察技术、防暴装备等项目的建设;五、建立健全装备、基础设施和经费标准。这一点前面我也提到过。就是制定出信息通信、刑事技术、公安交通和个人防护等基本装备标准,制定拘押收教场所、派出所、刑警队等基础设施建设标准,制定公安机关预算开支范围和定员定额标准。以此为基础,实现合理安排公安经费在各级财政预算中的基本比例,并随着国家财政收入的增长逐年增加对公安机关的投入。我们相信,随着公安经费保障机制的逐步确立和不断完善,警用装备建设的资金会逐步得到保证,警用装备的水平也会得到稳步的提高。二十一世纪的中国公安工作肯定会面临着许多新的挑战,新的形势和新的任务对警用装备建设也会提出新的要求。在可以预见的未来,中国警用装备建设可以说是挑战和机遇并存。一方面,新的形势和新的任务对警用装备建设提出新的要求;另一方面,国民经济的持续健康发展,综合国力的进一步增强,科学技术的日新月异,又为以高科技为主体的警用装备建设提供了坚实的技术支援和物质保证,为警用装备建设的快速发展提供了一个难得的契机。在公安发展十五计划和15年规划中,对公安科技和警用装备建设工作提出了明确的目标要求:十五期间,基本建成全国公安信息通信网,采用有线、无线、卫星等多种通信手段,实现语音、数据、图像、图片等信息的迅速精确传递;建成覆盖全国各种公安业务的信息管理系统;建成全国公安指挥大楼等等。
    2019-03-12