网站设计中遇到的问题电商网站开发报价单

张小明 2025/12/28 10:29:48
网站设计中遇到的问题,电商网站开发报价单,wordpress 小工具 功能,免费注册qq作者#xff1a;来自 Elastic spinscale 分析链中的数字标准化 在全文搜索中#xff0c;一个常见问题是如何处理数字。最基本的方法是将它们完全提取出来#xff0c;并在范围内作为真实数字进行查询#xff0c;但在很多情况下#xff0c;这需要大量分析#xff0c;而且数…作者来自 Elastic spinscale分析链中的数字标准化在全文搜索中一个常见问题是如何处理数字。最基本的方法是将它们完全提取出来并在范围内作为真实数字进行查询但在很多情况下这需要大量分析而且数字往往只是全文搜索的一部分比如 iphone 17 或 bed 1.4 m。问题是当用户输入搜索时他们对数字的理解可能与你不同。1.4 m 和 1,4 m 是相同的吗事实是美国和欧洲在大数和分数的分隔符上使用不同的字符。除此之外用户在搜索引擎中输入数字时点和逗号常常可以互换使用尤其是数字较小时。007 和 7 是相同的吗取决于你的使用场景。1.4 m 和 1.40 m 是相同的吗这取决……你明白我的意思。那么我们能做些什么来稍微标准化数字呢为了这个示例让我们使用 keep_types token filter仅保留数字丢弃分析链中的其他内容POST _analyze { text: makita führungsschiene 1.4 m, 1,4 m 1,40 1.40, tokenizer: standard, filter: [ { type: keep_types, types: [ NUM ] } ] }这只会返回看起来像数字的 token无论它们是否包含点或逗号但会排除其他内容例如普通单词比如 makita。接下来我们先统一所有带点或逗号的数字。POST _analyze { text: makita führungsschiene 1.4 m, 1,4 m 1,40 1.40, tokenizer: standard, filter: [ { type: keep_types, types: [ NUM ] }, { type: pattern_replace, pattern: (\\d)\\,(\\d), replacement : $1.$2 } ] }这只返回 1.4 或 1.40 —— 很好所以无论索引了什么或者用户搜索什么现在我们总是假设数字使用点借助 pattern_replace token filter 实现。如果不关心位置可以在最后使用 unique token filter —— 当然也可以省略 norms 以减少索引大小。你也可以去掉点只保留数字本身但这可能导致搜索 1.7 时返回 iphone 17 —— 同样这取决于是否希望这样。接下来我们去掉前导零POST _analyze { text: test 007 7 700 000 0, tokenizer: standard, filter: [ { type: keep_types, types: [ NUM ] }, { type: pattern_replace, pattern: ^0(\\d), replacement : $1 } ] }现在007 或 000 会被简化为单个数字字符。虽然这可能有用但请注意当用户搜索 007 作为零件编号时可能会返回包含 7 的所有结果从而增加歧义。接下来真正有趣的部分来了去掉尾随零但不要弄得太复杂。像往常一样如果你手头只有正则表达式你可能会想出一个复杂的正则但也许预处理可能已经是个好主意。POST _analyze { text: 0.100 0.1000 0.101 100 100.0 100.00 100.001, tokenizer: standard, filter: [ { type: keep_types, types: [ NUM ] }, { type: pattern_replace, pattern: ^(\\d)\\.([0-9])(0)$, replacement : $1.$2 } ] }这会返回至少如果你在请求中添加 filter_path**.token{ tokens: [ { token: 0.1 }, { token: 0.1 }, { token: 0.101 }, { token: 100 }, { token: 100.0 }, { token: 100.0 }, { token: 100.001 } ] }你已经可以看到这里还有一些可以改进的地方。100 和 100.0 之间真的有区别吗也许在这种情况下可以完全去掉尾随的 .0。我相信你会为此想出一个很棒的正则表达式。让我们把所有步骤整合起来POST _analyze { text: makita führungsschiene 1.4 m, 1,4 m 1,40 1.40 1.0 1.00 0.100 0.1000 0.101 0.1010 100 100.0 100.00 100.001 0.100 007 700, tokenizer: standard, filter: [ { type: keep_types, types: [ NUM ] }, { type: pattern_replace, pattern: (\\d)\\,(\\d), replacement : $1.$2 }, { type: pattern_replace, pattern: ^0(\\d), replacement : $1 }, { type: pattern_replace, pattern: ^(\\d)\\.([0-9])(0)$, replacement : $1.$2 } ] }在真实的分析链中你可能会去掉 keep_types filter并且在适用时尝试将正则表达式组合以提高速度但这大概是一个不错的起点。仔细看上面的输出你会注意到还有一个小问题0.1010 没有被简化为 0.101。因此你可能需要对正则表达式做进一步修正 —— 记住如果增加一个 token filter 有助于可读性也是可以的 还有一个实现提示。如果你想确保 pattern replace filter 只针对数字运行可以使用 condition token filter。原文https://discuss.elastic.co/t/dec-2nd-2025-en-normalizing-numbers-during-analysis/383512
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

加盟网站建设服务动态型网站建设

文章目录具体实现截图主要技术与实现手段关于我本系统开发思路java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!具体实现截图 同行可拿货,招校园代理 uniappSpringboot_87dlt2q_ 论文健康管理微信小程序的…

张小明 2025/12/26 1:34:51 网站建设

郑州市建网站国外房屋设计网站

第一章:Open-AutoGLM论文颠覆性发现:模型能否真正摆脱人类标注?最新发布的 Open-AutoGLM 研究成果引发了人工智能领域的广泛讨论。该论文提出了一种全新的自监督图语言建模框架,能够在无需人工标注数据的前提下,实现跨…

张小明 2025/12/27 9:01:49 网站建设

网站建设业绩wordpress中文留言板

多平台文件传输工具Transfer:一站式解决大文件分享难题 【免费下载链接】transfer 🍭 集合多个API的大文件传输工具. 项目地址: https://gitcode.com/gh_mirrors/tr/transfer 在数字协作日益频繁的今天,开发者们经常面临一个共同的困扰…

张小明 2025/12/26 1:33:43 网站建设

网站建设基础问题asp做的网站asp源代码

简介 题目链接:https://leetcode.cn/problems/minimum-window-substring/description/ 解决方式:滑动窗口(双指针 数组) 这是作者学习众多大神的思路进行解题的步骤,很推荐大家解题的时候去看看题解里面大佬们的思路、…

张小明 2025/12/26 1:33:09 网站建设

什么是网站建设有哪些具体内容廊坊视频优化效果

GitHub访问加速终极指南:3步解决网络延迟问题 【免费下载链接】fetch-github-hosts 🌏 同步github的hosts工具,支持多平台的图形化和命令行,内置客户端和服务端两种模式~ | Synchronize GitHub hosts tool, support multi-platfor…

张小明 2025/12/26 1:32:35 网站建设

企业网站建设注意事项湛江工程造价信息网

大家好,我是 V 哥。今天的内容咱们来详细介绍鸿蒙开发中,如何使用MindSpore Lite在鸿蒙系统上实现端侧人物图像分割功能,以及提供完整的实现方案。 联系V哥获取 鸿蒙学习资料 系统架构设计 技术栈与组件关系 #mermaid-svg-kKMHq6sLNO6nbkY…

张小明 2025/12/26 1:32:01 网站建设