当前位置: 首页 > news >正文

安徽富通建设有限公司网站搜索引擎优化的核心及内容

安徽富通建设有限公司网站,搜索引擎优化的核心及内容,那个网站做扑克牌便宜,dedecms能做什么网站目录 为什么要将LAC改造成ES插件? 怎么将LAC改造成ES插件? 确认LAC java接口能work 搭建ES插件开发调试环境 编写插件 生成插件 安装、运行插件 linux版本的动态链接库生成 总结 参考文档 为什么要将LAC改造成ES插件? ES是著名的非…

目录

为什么要将LAC改造成ES插件?

怎么将LAC改造成ES插件?

确认LAC java接口能work

搭建ES插件开发调试环境

编写插件

生成插件

安装、运行插件

linux版本的动态链接库生成

总结

参考文档


为什么要将LAC改造成ES插件?

ES是著名的非关系型文档数据库,开源、近实时、分布式,很多搜索引擎比如github、维基百科等都是以ES为骨架搭建的。我们也想基于ES搭建一套自己的搜索引擎。搜索引擎涉及到大量的自然语言处理(nlp),当前nlp的大量库类,尤其神经网络,基本都是基于python开发的,很少基于其他语言的。然而ES是用java语言开发的,这导致它没能很好的和当前nlp技术融合。但是ES有一个优点:预留了插件接口,这使它保留了扩展能力。一个很自然的想法就是,把python的nlp类库包装成ES插件。

我们调研后发现,常见的ES分词插件比如IK,效果其实一般。LAC是百度研发的一款词法分析工具,分词准确度、运行速度都不错。我们希望把它改造成ES插件。LAC本身python第三方库,官方也提供了c++、java、android语言的调用接口。具体见GitHub - baidu/lac。

根据github上公开的源码,我们发现,LAC的java接口其实是用JNI调c++的动态链接库。它还提供了window环境下编译好的LAC动态链接库以及java调用的demo (https://github.com/baidu/lac/releases/tag/v2.0.0)。这太好了,我们就以windows环境下的ES-LAC插件开发作为切入点。

开发环境说明

windows 10

intellij IDEA  2020.1.2社区版

gradle是intellij IDEA自带的,6.6.1

java 14

elasticsearch 7.10.2版github源码

lac4javawin

(java和IDEA版本是经过千辛万苦试探出来的,建议别瞎改)

怎么将LAC改造成ES插件?

确认LAC java接口能work

解压lac4javawin,同地址下载models_general。把LacMulti.java部分的argv拼写错误修正(或者把这个LacMulti.java删掉)。修改model_path为models_general下的lac路径,必要时将system.loadlibrary修改成system.load(lacjni.dll的绝对路径,不省略后缀),

运行lacDemo.java。能对输入的句子进行分词即为成功。

搭建ES插件开发调试环境

es调试有两种方式:远程调试,本地调试。

远程调试是指:远方服务器上运行es,本地也启动同版本的es,远方和本地建立联系,那么在本地打上的断点,远方可以传回对应的断点内部值,实现了调试。相当于本地负责打断点,远方负责执行。这样做的好处是:本地不需要真的运行程序,对资源要求很低,而远方的程序保持在远方的环境下,是真正生产中的运行状态,不存在迁移环境带来的问题。唯一的要求,需要调试的部分,远程和本地得是一致的,其他地方,比如本地多加载了一个插件,不会影响调试

本地调试是指:直接在本地编译es,运行起来,在localhost:9200可以访问到es,这个编译好的es在本地真的搭起了一个文档数据库。

回到我们开发调试ES的场景:有一个半成品es插件,es可能因为插件的bug而报错终止。那么远程程序运行不起来,本地也不用想着调试了。所以,ES插件的开发调试环境,只能是本地调试。本地调试的步骤如下:

到github上release链接里下载7.10.2版本的ES源码。然后按照Elasticsearch idea本地启动/调试教程-适用不同操作系统_热心小伙chj的博客-CSDN博客里的步骤启动本地调试。注意:run configurations里,VM option里的路径,保持windows下的反斜杠,不用修改。同时,一定要勾选上“include independencies with provided scope”。

编写插件

仿plugins下的analysis-smartcn写。大坑:插件最终是要打成jar包的。jar里的程序如何访问包内的dll呢?路径要怎么写?

生成插件

用gradle pz,将依赖的资源打在jar外。这样可以避免jar内程序访问jar内部资源的路径问题,尤其是访问文件夹!这种还不同于单个文件,可以复制到jar外指定路径再读。

安装、运行插件

本地调试的模式下,将生成插件解压到Elasticsearch idea本地启动/调试教程-适用不同操作系统_热心小伙chj的博客-CSDN博客新建的myhome路径下的plugins文件夹下。

linux版本的动态链接库生成

这是一个大坑!百度的文档(lac/java at master · baidu/lac · GitHub)真是......,编译命令部分可以参考,资源链接部分就别管了。

1,下载paddle inference的库,版本是cpu_avx_mkl,链接是https://paddle-inference-lib.bj.bcebos.com/1.8.4-cpu-avx-mkl/fluid_inference.tgz

2,下载lac 2.1.0版源码(lac/java at v2.1.0 · baidu/lac · GitHub)

3,环境:redhat 7.4 + java 1.8 + gcc 5.5.0 + cmake 3.24.3 + binutils 2.26.2

4,把下载好的models_general,编译出来的代码和lib通通拷贝到windows下,用gradle打成jar包,然后把jar包拷贝到linux下运行。

总结

要本地调试,不要远程调试;

要模仿es源码编译中gradle引入的analysis插件,不要模仿在github上找的ik插件(这可是maven格式的,和es 7.10.2不兼容);

要把资源打在jar外,不要打在jar内;

参考文档

Linux下源码编译安装cmake、升级安装gcc-CSDN博客

http://www.wangmingla.cn/news/20805.html

相关文章:

  • 网站单选框的实现上海牛巨微seo关键词优化
  • 网站策划软件宁波网络推广优化公司
  • 微信上的微网站在哪里baidu com百度一下
  • 精美网站制作公司沈阳网站制作优化推广
  • 无锡做网站价格曹操seo博客
  • 品牌全案策划全能优化大师
  • 织梦cms怎么做双语网站山东关键词优化联系电话
  • 网站上面的内容里面放照片怎么做的最近最火的关键词
  • wordpress mu调取宁波 seo整体优化
  • seo 网站地图网上推广app
  • 做卖号网站自动优化句子的软件
  • 网站代运营服务公司免费文件外链网站
  • 做视频写真网站犯法吗百度官网网站登录
  • 多人一起做视频网站网络推广网站程序
  • 怎么做诈骗网站网站百度收录批量查询
  • 江西省委网站作风建设免费学生网页制作成品代码
  • wordpress建站 东莞长沙整站优化
  • 网站做成软件个人网站如何优化关键词
  • 即墨建网站价格百度安装app
  • 网站优化建设河南杭州做百度推广的公司
  • 怎么做淘宝网站赚钱技巧交换链接
  • wordpress 整站源码seo关键词外包
  • 开源做网站需要申请账号吗百度搜索引擎优化的养成良好心态
  • 公司怎么开网站阿里巴巴友情链接怎么设置
  • 温州微网站制作公司推荐下载班级优化大师并安装
  • 网站到期域名怎么解决手机网站关键词快速排名
  • IT男做网站百度排名查询
  • 网站 需求 文档贵州seo和网络推广
  • 用dw做网站首页广州疫情升级
  • htmlcss做网站首页黄页88网官网