构建姿势图谱游戏图片素材构图和姿势一样算抄袭吗-啊虎米多手游网

摘要：一、知识图谱怎么构建知识图谱怎么构建介绍如下：构建模式、概念本体设计。构建模式和概念本体设计也就是本体的构建，本体的构建一般包括两种方式，有自顶向下和自底向上两种方式。知,构建姿势图谱游戏图片素材构图和姿势一样算抄袭吗

一、姿势图谱如何构建

姿势图谱如何构建说明如下：

构建玩法、概念本体设计。构建玩法和概念本体设计也就是本体的构建，本体的构建一般包括两种方法，有自顶给下和自底给上两种方法。

姿势抽取。一般分为两种，一种是先抽取实体后抽取关系的流水线式的方式，一种是同时抽取实体关系。

姿势融合。简单说明一下这两种方式，一种是基于制度的方式，一种是基于深度进修的方式。

姿势存储。最后把全部的姿势进行存储。

二、美团大脑百亿级姿势图谱的构建及应用进展

同享嘉宾：张鸿志博士美团算法专家

编辑整理：廖媛媛美的集团

出品平台：DataFunTalk

导读：美团作为中国最大的在线本地生活服务平台，连接着数亿用户和数千万商户，其背后蕴含着丰盛的和日常生活相关的姿势。美团姿势图谱团队从2024年开始着力于图谱构建和利用姿势图谱赋能业务，改善用户尝试。具体来说，“美团大脑”是通过对美团业务中千万数量级的商家、十亿级别的商品和菜品、数十亿的用户点评和百万级别的场景进行深入的领会来构建用户、商户、商品和场景之间的姿势关联，进而形成的生活服务领域的姿势大脑。“美团大脑”已经覆盖了数十亿实体、数百亿的三元组，在餐饮、外卖、酒店、到综等领域验证了姿势图谱的有效性。今天大家说明美团大脑中生活服务姿势图谱的构建及应用，主要围绕下面内容3个方面展开：

“美团大脑”是啥子？

下面内容是“美团大脑”构建的整体RoadMap，最先是2024年开始餐饮姿势图谱构建，对美团丰盛的结构化数据和用户行为数据进行初步挖掘，并在一些重要的数据维度上进行深入挖掘，比如说对到餐的用户点评进行情感解析。2024年，以标签图谱为代表，重点对非结构化的用户点评进行深入挖掘。2024年以后，开始结合各领域特征，逐个领域展开深度数据挖掘和建设，包括商品、美食、酒旅和到综和cross图谱等。

标签姿势图谱构建分为下面内容四个部分：姿势抽取、关系挖掘、图谱打标和图谱应用。

①姿势抽取

标签挖掘采用简单的序列标注架构，包括Single span标签挖掘和跳字标签挖掘，除了这些之后还会结合语义判别或者上下文判别，采用远监督进修+结局投票方法获取更精准的标签。

②关系挖掘

同义词挖掘：同义词挖掘被定义为给定包含N个词的池子，M个业务标签词，查找M中每个词在N中的同义词。现有的同义词挖掘方式包括搜索日志挖掘、百科数据抽取、基于制度的相似度计算等，缺乏一定的通用性。当前大家的目标是寻找通用性强，可广泛应用到大规模数据集的标签同义词挖掘方式。

下面内容是作者给出的同义词挖掘的具体方法，首先将离线标签池或者线上查询标签进行给量表示获取给量索引，再进行给量哈希召回，进一步生成该标签的TopN的同义词对候选，最后运用同义词判别模型。该方法的优势在于降低了计算复杂度，提高了运算效率；对比倒排索引候选生成，可召回字面无overlap的同义词，准确率高，参数控制简单。

对于有标注数据，主流的标签词嵌入表示方式有word2vec、BERT等。word2vec方式实现较为简单，词给量取均值，忽略了词的顺序；BERT通过预训练经过中能捕捉到更为丰盛的语义表示，然而直接取[CLS]标志位给量，其效果和word2vec等于。Sentence-Bert对于Bert模型做了相应的改进，通过双塔的预训练模型分别获取标签tagA和tagB表征给量，接着通过余弦相似性度量这两个给量的相似性，由此获取两个标签的语义相似性。

对于无标注数据来说，可以通过对比进修的方式获取句子的表示。如图所示，Bert原始模型对于不同相似度的句子的给量相似度都很高，经过对比进修的调整之后，给量的相似度能够较好地体现出文本相似度。

对比进修模型设计：首先给定壹个sentence，对这个样本做扰动产生样本pair，常规来说，在embedding层加上Adversarial Attack、在词汇级别做Shuffling或者丢掉一些词等构成pair；在训练的经过中，最大化batch内同一样本的相似度，最小化batch内其他样本的相似度。最终结局显示，无监督进修在一定程度上能达到监督进修的效果，同时无监督进修+监督进修相对于监督进修效果有显著提高。

同义词判别模型设计：将两个标签词拼接到Bert模型中，通过多层语义交互获取标签。

③图谱打标：怎样构建标签和商户供给的关联关系？

给定壹个标签集中，通过标签及其同义词在商户UGC/团单里出现的频率，卡壹个阈值从而获取候选tag-POI。这样会出现壹个难题是，即使是频率很高但不一定有关联，因此需要通过壹个商户打标判别模块去过滤bad case。

商户打标思考标签和商户、用户点评、商户Taxonomy等三个层次的信息。具体来讲，标签-商户粒度，将标签和商户信息（商户名、商户三级类目、商户top标签）做拼接输入到Bert模型中做判别。

微观的用户点评粒度，判断每壹个标签和提到该标签的点评（称为evidence）之间是正面、负面、不相关还是不确定的关系，因此可当作四分类的判别模型。大家有两种方法可选择，第一种是基于多任务进修的方式，该方式的缺点在于新增标签成本较高，比如新增壹个标签，必须为该标签新增一些训练数据。笔者最终采用的是基于语义交互的判别模型，将标签作为参数输入，使该模型能够基于语义判别，从而支持动态新增标签。

基于语义交互的判别模型，首先做给量表示，接着是交互，最终聚合相对结局，该方式的计算速度较快，而基于BERT的方式，计算量大但准确率较高。大家在准确率和速度上取balance，例如当POI有30多条的evidence，倾给于运用轻量级的方法；如果POI只有几条evidence，可以采用准确率较高的方法进行判别。

从宏观角度，主要看标签和类目是否匹配，主要有三种关系：一定不会，也许会，一定会。一般通过商户层关联结局进行投票结局，同时会增加一些制度，对于准确率标准较高时，可进行人工review。

④图谱应用：所挖掘数据的直接应用或者姿势给量表示应用

在商户姿势问答相关的场景，大家基于商户打标结局以及标签对应的evidence回答用户难题。

首先识别用户query中的标签并映射为id，接着通过搜索召回或者排序层透传给索引层，从而召回出有打标结局的商户，并展示给C端用户。A/B实验表明，用户的长尾需求搜索尝试得到显著提高。也在酒店搜索领域做了一些上线实验，通过同义词映射等补充召回手段，搜索结局有明显改善。

主要采用GNN模型实现，在构图中构建了两种边，Query-POI点击行为和Tag-POI关联信息；采用Graph Sage进行图进修，进修的目标是判断Tag和POI是否有关联关系或者Query和POI是否点击关系，进一步依据关联强度进行采样。上线后结局显示，在仅利用Query-POI信息构图时，线上无收益，在引入Tag-POI关联信息后线上效果得到显著提高。这也许是由于排序模型依赖于Query-POI点击行为信息去进修，引入Graph Sage进修等于于换了一种进修的方法，信息增益相对较少；引入Tag-POI信息等于于引入了新的姿势信息，因此会带来显著提高。

仅接入Query-POI给量相似度线上效果提高不佳，将Query和POI给量接入后效果得到显著提高。这也许是由于搜索的特征维度较高，容易忽略掉给量相似度特征，因此将Query和POI给量拼接进去后提高了特征维度。

该任务通过当前已知的Item去预测用户点击的Masked Item。比如说获取Item的上下文表征的时候，将相关的Attribute信息也进行给量表征，从而去判断Item是否有Attribute信息。

还可以做Masked Item Attribute预测，从而将标签的姿势图谱信息融入到序列主推任务中去。实验结局表明，引入姿势信息后的准确率在不同的数据集上均有数量级的提高。大家也做了线上转化的职业，将Item表征做给量召回；具体来说，基于用户历史上点击过的Item去召回topN相似的Item，从而补充线上主推结局，在美食列表主推页有显著提高。

菜品姿势图谱的构建目标，一方面是构建对菜品的体系领会能力，另一方面是构建较为完备的菜品姿势图谱，这里从不同的层次来说明菜品姿势图谱的构建策略。

***菜名领会**

菜名中蕴含着最精准、获取成本最低的菜品信息，同时对菜名的领会也是后续显式姿势推理泛化能力的前提。抽取菜名的本质词/主体菜，接着序列标注去识别菜名中的每个成分。针对两种场景设计了不同的模型，对于有分词情况，将分词符号作为独特符号添加到模型中，第壹个模型是识别每个token对应的类型；对于无分词情况，需要先做Span-Trans的任务，接着再复用有分词情况的模块。

从姿势内容丰盛的文本中挖掘某些菜谱的基础姿势，来构建源姿势库；接着通过泛化推理去映射到具体SKU中。在食材推理中，比如菜品种有多道红烧肉，统计10道五花肉中有4道是指五花肉，6道是指带皮五花肉，因此肉就转化为带皮五花肉。对应地，佛跳墙有多道菜谱，先通过统计每种食材出现的概率，可以卡壹个阈值，接着表明该菜谱的食谱是啥子。

多源数据挖掘，基于菜名领会结局构建solid knowledge triple，同时也依赖菜名领会结局泛化制度。该策略主要适用于处理食材、功效、人群等标签。该方式准确率OK，有一定泛化能力，但覆盖率偏低。

业务内有一些相对好用的训练数据，例如1000万商户编辑自洽的店内分类树。基于该数据可产生5亿的 positive pairs和 30G corpus。在模型训练中，会随机替换掉菜谱分类的 tab/shop，模型判断 tab/shop是否被替换；50%的概率drop shop name，使得模型仅输入菜名时表现鲁棒。对模型做了实体化改进，将分类标签作为bert的词进行训练，将该方式应用到下游模型中，在10w标注数据下，菜谱上下位/同义词模型准确率提高了1.8%。

首先运用ReseNet对菜谱图片进行编，运用Bert模型对菜谱文本信息做编码，通过对比进修loss去进修文本和店菜的匹配信息。这里采用双塔模型，一方面是下游应用较为方便，单塔模型可独立运用，也可inference出菜品图片的表示并缓存下来；另一方面是图片内容单纯，暂无交互式建模的必要。训练目标分别是图片和店菜匹配、图片和菜名对齐，图片和Tab对齐。

可基于多模态信息做菜品品类预测或者菜谱信息补全。预测“猪肉白菜”加上了图片信息将更加直观和准确。基于文本和视图模态信息进行多视图半监督的菜谱属性抽取，以烹饪方法抽取为例，首先通过产生烹饪方式训练样本（红烧肉-红烧）；接着采用CNN模型去训练预测菜谱烹饪方式，指导Bert模型Finetune文本模型或者多模态模型，基于商户/tab/菜品及点评信息预测菜品烹饪方式；最终对两个模型进行投票或者将两个特征拼接做预测。

综上，大家对菜品姿势图谱构建进行相应的拓展资料。菜品领会相对适合SKU的初始化；深度进修推理模型和显式推理模型相对适合做同义词、上下位、菜系等；最终是想通过多模态+结构化预训练和推理来化解单模态信息不完整、属性维度多、需要大量标注数据等难题，因此该方式被应用到几乎全部的场景中。

今天的同享就到这里，谢谢大家。

同享嘉宾：

三、怎样构建壹个有效的姿势图谱

构建壹个有效的姿势图谱需要遵循下面内容流程：

1.确定领域和范围：你需要确定姿势图谱的主题和领域。这将帮助你专注于相关的实体、概念和属性。

3.实体识别和链接：识别出数据中的实体，并将它们链接到其他相关实体。这可以通过命名实体识别（NER）等技术实现。

4.关系抽取：识别实体之间的关系，如“属于”、“包含”、“导致”等。这些关系将帮助你构建姿势图谱的结构和语义。

5.属性抽取：为实体添加属性，以提供更多关于它们的信息。属性可以包括类别、描述、位置等。

6.构建本体：运用本体（Ontology）来定义姿势图谱中的概念、实体和关系。本体是一种表示姿势的形式，可以帮助你组织和领会姿势图谱中的信息。

7.验证和更新姿势图谱：确保姿势图谱的准确性和一致性。随着新数据的收集和姿势的更新，定期更新姿势图谱。

8.应用姿势图谱：将姿势图谱应用于实际场景，如智能问答、主推体系、天然语言处理等。这将帮助你更好地利用姿势图谱中的信息。

9.可视化和解析：通过可视化工具展示姿势图谱的结构、关系和属性。这有助于更好地领会姿势图谱，并为进一步的解析提供支持。

10.持续优化：根据实际应用中的需求和反馈，不断优化姿势图谱的结构和内容，进步其准确性和实用性。

构建姿势图谱游戏图片素材 构图和姿势一样算抄袭吗

二、美团大脑百亿级姿势图谱的构建及应用进展

三、怎样构建壹个有效的姿势图谱

延伸阅读

构建姿势图谱游戏图片素材构图和姿势一样算抄袭吗