最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 评测通用流程小布助手评测体系总结与展望(组图)

    编辑:加州大学吴启尧

    制作平台:DataFunTalk

    导读:近年来,评价开始频繁出现在人们的生活中,大家对“评价”这个词的认知也越来越深刻。比如买房、买车、买数码产品等等,人们会从一定的维度比较物品,最后得出评价结论。对互联网产品和日用品的评价既有相同点,也有不同点。本次分享的内容是小布助手的评价体系。

    具体来说,将重点关注以下几个部分:

    评价理念和评价目的

    评价五要素详解

    评估一般流程

    小布助理测评系统

    总结与展望

    01

    评价理念和评价目的

    首先,我们将分析评估的概念和目的。

    评估以目的为导向,范围可大可小。我们可以将评价定义为评价+测量,通过一定的规则对观察到的现象进行定量描述。

    日常生活中的商品评价与互联网产品和人工智能评价有异同。同一点是方法论,可以互相复制。方法论的可复制性是指无论是产品评估还是互联网产品评估,都要考虑评估的样本、维度和方法。评价有很多不同,主要有以下三点:

    互联网产品的需求场景大相径庭。互联网产品评测的场景很多。例如,搜索任务分为百度、今日头条等综合搜索,淘宝、京东等购物搜索,以及其他垂直搜索(美团、携程等);语音助手等人工智能产品对手机、电视、车载环境也有不同的场景需求。

    互联网产品或人工智能产品属于对海量数据的评价,样本选择很重要,结论指标更可量化。

    产品评价具有一定的商业目的,但互联网产品或人工智能产品往往不关注商业化,也不关注产品策略或算法是什么样的,而是优先考虑用户体验。所有评价均基于用户价值,全面提升用户体验。

    一般来说,评估的目的是双重的。首先,从用户的角度出发,通过大量样本发现用户感知到的共性问题,为产品策略和算法优化提供思路,推动落地。其次,评估迭代优化的效果,为上线提供依据,预估上线的风险点。

    02

    评价要素

    评价五要素:评价方法、数据选择(抽样方法)、评价维度及相应的评分规则、评价打分与评分(评价者对查询和结果判断的需求)、评价报告。下面,对这五个要素进行详细介绍。

    1. 评估方法

    下面通过搜索行业和语音助手行业来介绍常用的评价方法。

    ① 搜索行业内常用的评价方法

    常用的评价方法有:

    总体满意度(Per-page),即整个页面所有结果的总体用户满意度,输出指标为满意度的平均分。

    比较评价(SBS),主要评价双方的差异,输出指标为胜率。请注意,在进行此类评估时,必须确保评估对象具有可比性。

    单次评分(PI),即分别对query下的url结果页面进行评分,根据结果的位置权重进行加权,最终得到query的得分,输出指标为NDCG。这种评价方法一般用于相关性排序。

    最后一种方法是召回率和准确率的评估。主要目的是比较人工评价和实际算法的预测效果。输出指标为召回率、准确率和F值。

    ② 语音助手行业常见的评价方法

    语音助手是一种语音交互系统。它有四个核心瓶颈:无法醒来、听不见、听不懂、听不懂。对于这四个瓶颈,业内有一些常用的评价方法。

    唤醒评估一般在语音实验室进行,输出指标为不同场景下的唤醒率和误唤醒率。

    听不清,进行ASR识别率评估,输出指标为单词错误率和句子错误率。可以在语音实验室进行。优点是可以根据不同的场景进行评估。缺点是不能反映真实的在线用户体验,因为评测集是通过录音棚收集的,而不是真实在线用户的数据;它还可以通过在线界面进行评估。其优点是识别结果可以通过在线使用真实用户的音频数据进行核对,评价数据量大。

    不懂就进行意图调用的评估,和搜索一样关于搜索引擎的叙述错误的是,主要目的是对比人工评估和实际算法的预测效果,输出指标是召回率、准确率率和 F 值。如果您不明白,也会进行满意度评估。评价结果对用户的满意度会考虑内容是否正确丰富、交互是否更人性化等。

    不清楚 TTS 评估会考虑语音合成的自然度、清晰度、拟人性等,输出指标是 MOS 分数。

    2. 数据选择

    无论是搜索评测还是语音助手评测,采样方式都可以分为四类。

    首先是随机抽样,包括用户对数随机和用户随机。用户日志包括文本日志和音频日志。例如,语音助手的主要数据是音频日志。我们从这些日志中随机选择适当数量的评估。这种方法的优点是可以充分反映用户需求的真实分布,但缺点是不能很好地发现长尾问题和局部问题。

    二是去重采样,将所有的PV都转换为1,然后随机抽取日志。这种抽样方法必须说明情况,避免一概而论。去重采样的优点是可以更好地覆盖长尾查询,但缺点是数据分布与在线用户的真实需求分布不一致。

    第三种抽样方法是分层抽样。根据用户日志分为高频、中频和长尾日志,按比例进行采样。高频、中频、长尾的具体定义与产品有很大关系,不能说PV超过一个值就是高频log。它的优点是可以对每个细分市场进行针对性的分析。比如产品经理想看整体线上效果,就用随机抽样,如果想重点优化高频交互的效果,那我们就需要分层抽样。. 但其缺点是数据分布与在线用户的真实需求分布不一致。

    第四种抽样方法是垂直抽样。在用户日志中,我们在本地对一些特征进行了采样。我们可以按字段取样。如果我们要评价闲聊,我们提取的查询就是闲聊领域的查询。垂直抽样的优点是可以更好地覆盖和发现局部类型的问题,但缺点是不能从整体上解释问题。

    3. 评估维度和规则选择

    根据产品的定位和评价的目的,我们可以选择不同的评价维度。

    第一维度:返回结果不能包含违反国家法律法规、影响用户情绪的虚假不实信息,如色情、赌博、毒品等。

    第二个维度:垃圾邮件、作弊、低质量信息也是我们关注的一个维度。垃圾邮件包括死链接等,作弊如包含虚假链接或堆叠内容等。低质量是指内容质量低下。这些情况在搜索引擎和语音助手中更为常见。

    第三个维度:意图理解是预测用户查询的真实需求。我们必须了解用户意图,才能提供相关的高质量内容。如果对意图的理解出现较大偏差,无论内容质量再好,结果都会严重影响用户体验。

    第四个维度是相关性,这是一个好的结果最基本也是最重要的要求。主要是指用户的需求和给出的结果是否相同。

    第五个维度是时效性,要求返回的结果是及时的结果,尤其是对时效性要求较高的查询,比如新闻、更新快的产品、周期性事件等。第六个维度是排名,主要是搜索评价中关注的维度。由于搜索结果是一种自上而下的浏览产品形式,质量越高的结果应该排名越高。

    第六个维度是多样性,无论是搜索还是语音助手。例如,一个查询最好返回满足不同需求的结果。例如,在查询“陈情令”中,返回的多样性结果应该包括剧情介绍、贴吧讨论等。在语音助手中,多样性是指语音助手返回不同且有趣的回复。

    第七个维度是权威,更多体现在搜索引擎上。搜索结果来自官方网站或知名网站,尤其是一些关于医疗健康、法律法规的问题,那么查询的结果最好给出权威性。高色情网站的结果肯定比个人写的要好。

    第八个维度是便利性,是指查找目标信息所需的时间和成本,是搜索和语音助手都会关注的维度。

    第九个维度是丰富度,主要关注评价结果内容的丰富度。

    下列关于转基因生物安全性的叙述 错误的是_关于两极地区共同特征的叙述,错误的是_关于搜索引擎的叙述错误的是

    前提包括三个方面:

    首先,在制定评估规则之前,您必须了解并熟悉产品。比如小布助手,在制定小布助手相关的评价方案和规则时,首先要知道小布有多少技能,每个技能的呈现形式是什么,和小布助手定位相同的竞品. 其中,他们有什么技能,他们的演讲是什么样的。这些都是在制定评估计划和规则之前需要了解的。

    其次,我们还需要了解产品的用户层,即用户画像。因为不同的用户可能对一个查询有不同的需求,或者在不同的场景下,同样的查询需求也会有很大的不同。

    最后是了解评估的目的,为什么要做评估,希望达到什么样的期望,做了什么样的优化或策略。

    评价方向如下:

    评价维度,即确定评价中需要注意的维度。

    档位划分关于搜索引擎的叙述错误的是,行业常用的档位有二档、三档、四档、五档等。

    齿轮的定义就是对不同的齿轮进行详细的描述,让评测和标注人员有参考依据,保证即使不是同一个人进行评测,评测结果也不会有太大的变化。得出的结论基本相同。

    在处理模糊区域的原则上,要明确基线和分界线,尽量减少模糊区域对整体结论的影响。比如在搜索场景中,我们可以通过用户的点击数据来确定边界,而像语音助手一样,我们可以通过用户的后续行为分析和用户调研来确定用户查询的真实需求。

    4. 评论和分数

    评价标注评分主要分为用户查询需求判断和结果需求满意度判断两部分。判断查询需求的方法有四种。

    第一种是直接理解法,适用于描述比较清楚的查询。我们可以直接理解查询的字面意思,但不能省略查询的有限元素,比如《陈情令分集剧情介绍》中的“分集”。合格的元素。

    二是日常体验方式,源于大部分用户的需求,更贴近日常生活。我们可以根据常识判断查询需求。从中也可以看出,在选择评价和标注者时,需要选择知识面广、评价经验丰富的候选人,这样可以提高评价效率和质量。

    三是深入思考法。对于一些查询,由于输入法复杂或查询描述不清楚,我们无法从字面上直接理解用户的真实需求,需要进行深入的思考和分析。

    最后一种方法是搜索法,即如果你在深入思考之后还是无法理解用户需求,那么无论你是做搜索评测还是语音助手评测,都可以使用头部搜索引擎观察多个给出的结果引擎。经过对比,你大概可以对查询有更准确的理解。

    查询需求判断完成后,我们需要判断结果是否满足需求。首先,我们判断结果是否能够提供用户正在寻找的信息,即在相关性方面是否满足需求。其次,我们判断结果是否符合关注的维度,然后根据相应的档位划分规则进行评分。

    5. 评估报告

    评估报告需要包含三个要素。首先,我们需要考虑该报告的阅读对象。比如评价报告是给上级的,还是给产品经理和算法部门的,根据不同的阅读对象,报告的呈现内容是不同的。例如,根据阅读对象的不同,评价数据中的详细统计信息和细化问题也不同。但无论读者是谁,都必须遵守单页原则,报告的第一页必须显示所有最重要的内容。最重要的内容有:主要指标、重要统计结论、关键问题、评价背景信息等。评价背景信息包括评价目的、

    03

    评估一般流程

    首先,要了解评估的具体需求。沟通需求时,应带入相关业务方负责人沟通需求,评估方根据需求内容输出评估计划初稿。初稿包括了应包含在前面审查的上下文中的所有内容。初稿形成后,需要对相关业务方再次进行讨论,形成终稿。之后,需要准备好数据和环境,然后进行评估测试。只有在测试标书没有问题的情况下才能开始正式评估。否则需要根据问题点回到相应的链接重新讨论。如果规则不合理或未涵盖,则需要对其进行更正。正式评价后,需要进行评价质检,质检合格后进行数据统计和报告输出。这是评测的终点,也是产品优化的起点,因为评测的主要目的是提升用户体验,评测中发现的问题和需求需要不断优化迭代。

    04

    小布助理测评系统

    接下来,我将详细介绍OPPO小布助手的评测体系。先介绍一下小布:

    小布助手是OPPO智能手机和物联网设备上的内置AI助手。是OPPO对未来万物融合的5G+时代的思考和具体战略布局。具备“无需安装,唤醒使用”的覆盖能力,实现“解放双手,高效运行”的人机交互新形态;唤醒方式丰富,可轻松实现内容的直接语音服务。目前小布助手可以支持的技能有上百种,例如:生活服务、出行服务、信息查询、系统运营、娱乐服务等。小布助手的能力还在发展中。对于这些能力,

    整体评价框架围绕语音交互系统的四大核心瓶颈构建。目前参与评测的产品包括手机、手表、电视等,随着OPPO相互融合布局的发展,将会有越来越多的产品参与评测。

    对于“听清楚”的评价环节,一是评价在线音频质量分布,二是评价ASR识别率。识别率评测有两种,一种是语音实验室的端到端评测,一种是接口评测。尤其是接口评估,会根据不同的评估需求采用不同的解决方案。

    小布助手现在也支持粤语模式,所以也会有针对性地进行测评,保证粤语交互效果。

    对于“理解并回答好”部分,我们需要进行自然语言处理相关的评测和资源介绍评测。

    评价包括满意度评价、对比评价、用户会话满意度评价等。满意度评价,主要评价用户第一轮查询对应结果的质量。对比评测主要是评价与小布助手和小布定位相同的朋友的产品差异。用户会话满意度评价评估用户整个交互过程的满意度,考虑整个交互环节。还有两种类型的评估,意图的召回和精度评估以及上线前的 GSB 评估。调用准确率是业内常见的,我就不多说了。GSB评测是对算法、资源、产品形态等上线前的技能效果的评测。上线的前提是评估结果的正面收益大于负面收益,否则无法启动改进的技能特定模型。

    资源引进的评价主要是观察资源引进的效果。根据不同的资源,评价所关注的维度也不同,这里不再赘述。

    评价体系的最后一部分是“说得清楚漂亮”,用来评价小布助手在各个语气中存在的问题以及与竞品的差异。除了业界常用的MOS评价外,根据评价需要和效率,也会采用推荐评价和只看是非的客观评价方法。

    05

    总结与展望

    没有一个评估系统是一成不变的。它将根据用户需求和产品迭代升级解决方案,以发现新问题并指导优化思路。

    比如随着语音助手从单设备到多终端、单命令到跨服务、单场景到跨场景的发展,小布助手评测体系将不断升级,进一步覆盖设备接入评测。超级终端的管理能力。从语音识别到视觉识别、环境感知等效果能力评估、学习能力评估等。

    06

    精彩问答

    Q:ASR和TTS的评价指标有哪些定义和标准?

    A:ASR的评价指标主要是词错误率和句子错误率。将语音转换的文本与人类识别的文本进行比较,计算单词错误率和句子错误率。对于多环境、多噪声、多性别、多年龄评价等界面类型,我们随机选取在线用户数据;而语音实验室评测中采集的数据会在一定的噪声环境下采集数据,如车辆环境、高速道路环境、办公环境等。实验室会将采集到的人声数据和噪声数据进行合成,进行语音识别评估。TTS的评价指标是MOS分,需要考虑自然度、清晰度、准确度等因素。目前有五个等级,行业’ MOS 评分的规则很常见。有兴趣的同学可以上网搜索详细的年级划分规则。

    Q:对于严重的长尾问题,哪种采样方式可以更好地提升用户体验?评价的边界情况如何处理?例如,虚假唤醒,情绪识别有时难以区分。

    A:长尾问题可以通过分层抽样来解决,因为随机抽样抽取的样本必然偏向较高的PV,不能覆盖长尾样本。当从低于一定频率的样本池中采样时,可以获得长尾数据。对于边界情况,最好有客观数据支持。如果不尽可能考虑结果的多样性,模糊用户查询不影响整体结论。情绪识别有时会遇到难以区分的情况,比如悲伤和失望,但我们会定义具体的规则来尝试区分这两种情绪。

    问:相关性和时效性评估都是手动进行的吗?

    答:是的。所有分享都涉及人工评价,所以在制定评价规则时一定要明确,减少人为主观因素的影响。比如相关性,通过详细的规则来定义强相关、弱相关和不相关,并用案例来说明,帮助评估者理解。时效性的评价可以使用“搜索”的方法,观察搜索引擎中查询对应的最新结果。当然,我们也会看竞品的结果,综合判断。

    Q:在搜索评测中,​​准调用指标是否会用于整个链接?对完整链接的最终结果是否满意和 PI?PI评估什么时候是针对每个维度设计评估规则还是用其他方法来设计?

    A:搜索评测中的准调用一般是按照垂直领域进行的,全环节的做法比较少见。根据定义评估满意度。例如,如果只关心Top 3指标,那么满意度与前三个结果有关,最后得到对应的评分结果;如果你关心前 10 项指标,那么前 10 项结果都在考虑范围之内。PI 也遵循相同的原则。目前业界通常选择前三名或前四名。PI会对前三个或四个结果分别打分,然后根据计算公式使用权重计算他们的综合得分。

    问:我们如何从这么多评估指标中评估哪个模型最好?是否需要评估所有维度?如果不是,我们应该如何选择所需的测量尺寸?

    A:我们的评估体系涵盖了核心瓶颈设计的所有维度,但是在进行评估时,必须根据要评估的模型和评估目的选择不同的评估方法。比如现在做闹钟意图模型的优化评估,我们只需要评估闹钟模型的意图输出是否与用户的真实需求不同,其模型优化效果是否优于在线版本。在评价维度上,有的维度是搜索行业独有的维度,有的是语音助手行业独有的维度,还有一些是全行业都关注的维度,比如相关性。评估时,需要根据评估的目的选择不同的维度。例如,你现在需要注意闲聊的多样性。然后在保证结果的相关性的情况下,需要检查结果的多样性是否满足需求。此时,评价的重点是相关性和多样性,而不是及时性。如果当前评价是信息查询,那么关键维度应该是相关性和及时性。根据不同的评价目的和评价产品,我们关注的维度也不同。

    Q:ASR方言评测需要招聘专业的方言人员吗?TTS 的 MOS 分数是长期评估任务还是基于算法要求?我需要多少人对相同的音频评论进行评分?

    A:方言评估必须由懂方言的评估人员完成。TTS的MOS评分评价是基于综合分析和算法要求进行的。比如算法部门有一个优化模型需要上线,那么我们就需要进行评估。如果他们对新车型的推出没有需求,那么我们会定期(比如两个月或一个季度)进行在线评估。评分时,至少需要五个人对相同的音频进行评分。

    Q:小布助手评价体系中最重要的指标是什么?

    A:我们没有固定的核心指标。比如ASR的核心指标是词错误率和句子错误率;TTS的核心指标是MOS分数;NLP的核心指标是用户满意度,因为不管之前的用户意图识别是否准确,当资源引入质量差或相关性能不好时,NLP模块给出的结果是还是很穷。

    Q:如何评价小布助手的丰富度维度?

    A:首先,在保证丰富性的同时,要权衡用户的需求,所以主观性比较强。我们需要确保答案不会太短。同时,我们也关注小布的助手是否有话要说。答案不能解释虚无的概念,而必须涉及具体的事物,具有一定的主观性,所以在制定规则时不仅要考虑答案的长度,还要考虑“句子”,以及然后判断答案的丰富程度。

    Q:如何解决用户口音导致的语音识别率偏低?目前是否支持自动识别用户使用的方言?唤醒词是否支持方言?

    A:在语音评估的时候,不能关注用户说的是带口音的普通话还是标准的普通话。从用户满意度上,正确识别带口音的用户的真实需求。所以我们的评价标准是一样的,不能因为用户有口音就放宽标准。但是当review显示有问题时,我们会贴上不同的标签,表示是用户口音引起的错误。同理,当有环境噪声时,我们也会对出现的识别错误进行标注。对于后一个问题,我们目前不支持自动识别方言,但是我们有一个开关来控制小布助手的方言识别功能。唤醒词的方言支持功能也需要开启才能支持。

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 评测通用流程小布助手评测体系总结与展望(组图)

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论