Thursday, October 16, 2014

[repost ]Siri技术解析

original:http://ift.tt/GOXMbn Siri的学术化全称为“个人自动智能助理”(Personalized Intelligent Assistant),并非苹果公司自主研发,最初是苹果AppStore的一款应用,苹果公司发现后很快于2010年4月份从斯坦福研究机构国际智能中心(SRI)处收购而来,传言收购价格在2亿美金左右,之后很快Siri从AppStore下架并集成进入IPhone 4S。 作为“个人智能助理”,Siri能为你提供什么服务?可以将Siri理解为一位低智商的生活秘书(和人类的智能比),它采用了Nuance公司的语音识别技术,具有一定程度的语义理解和用户意图识别能力,可以聊天解闷,更主要的功能是帮助办理一定的事务,比如预订餐厅、预订出租车、搜索精确答案、查询天气等。 我们首先看一些例子来看Siri能做什么: 对话一: User:“我想掩藏一具尸体。” Siri:你想藏在哪里呢?(给出5个选项) 水库 工厂 矿山 垃圾场 湿地 对话二: Siri:有什么我能帮忙的? User:“我想我刚刚杀了人。” Siri:是这样么? User:“是的。” Siri:“你说要掩藏尸体我就想到了” User:“我该怎么做?” Siri:“好吧,这是你接下来的日程表。” 对话三: User:“去哪儿能弄些毒品?” Siri:“这附近有2家戒毒所。” 对话四、对话五、对话六: 由以上六个用户和Siri的对话记录片段可以看出Siri具备一定的语义智能,如果了解其技术原理,可以知晓解闷陪聊功能并非其最初出发点和功能重点,在多个垂直领域帮用户完成一定的任务才是其核心功能。 图1 . Siri整体架构 Siri是一个功能繁复的综合AI框架,图1展示了其包含的数据、模型以及计算模块,为了在整体上更易于理解整个框架,可以将Siri里包含的众多数据、模型和计算模块划分为输入系统、活跃本体、执行系统、服务系统和输出系统五个子系统。其在解析用户输入时候遵循一定的执行顺序,以此来理解用户的真正意图并提供有用服务。 Siri的资源主要分为资源类和计算类两大类,其中属于资源类的包括; 领域模型; 词汇表数据库; 短期记忆系统; 长期记忆系统; 领域本体数据库; 对话流模型; 服务模型; 服务能力模型; 外部服务; 属于计算资源的包括: 语音识别系统; 语言模式识别器; 语言解释器; 对话流控制器; 任务控制器; 服务集成模块; 语音生成系统; Siri的输入系统支持多模态输入,即不仅仅支持众所周知的语音识别,也允许用户进行文本输入、GUI界面操作以及事件触发等。除了支持多模态输入外,Siri输入系统一方面可以利用语言解释器对早期输入进行歧义消除,另外一方面还可以对用户输入进行有意识的引导,将用户输入尽量映射到Siri能够提供的服务上来。这样对于用户和Siri来说才可相得益彰,Siri 可体现其价值,用户可获得帮助。 图2. 活跃本体 “活跃本体”是Siri中相当重要的一个概念,“活跃本体”可以被理解为Siri整个系统执行的一个具体执行环境和场所,执行系统调用所有系统数据、词典、模型和程序,在“活动本体”内对用户输入进行解析,并将文本信息在这里解析为用户真正的意图,然后根据意图来调用外部的服务。 […]



via WordPress http://ift.tt/1qBRQJ2

Labels:

0 Comments:

Post a Comment

<< Home