当前位置: 首页 > news >正文

影视网站怎么做百度com打开

影视网站怎么做,百度com打开,html网站标签,wordpress怎么看访问ahocorasick.Automaton 是 Python 中 pyahocorasick 库提供的一个类,用于实现 Aho-Corasick 自动机。Aho-Corasick 算法是一种用于精确或近似多模式字符串搜索的高效算法。 通过 pip install pyahocorasick 安装 pyahocorasick 库。 并且,该模块是用 C 编…

ahocorasick.Automaton 是 Python 中 pyahocorasick 库提供的一个类,用于实现 Aho-Corasick 自动机。Aho-Corasick 算法是一种用于精确或近似多模式字符串搜索的高效算法。

通过 pip install pyahocorasick 安装 pyahocorasick 库。
并且,该模块是用 C 编写的,安装时需要有 C 编译器来编译本机 Cpython 扩展。

使用 ahocorasick.Automaton 类的一般步骤如下:

  1. 导入 ahocorasick 库:import ahocorasick

  2. 创建 Automaton 对象:a = ahocorasick.Automaton()

  3. (可选)将字符串键及其关联值添加到自动机,可作为 trie 树使用。例如:

    for idx, key in enumerate('heherhersshe'.split()):a.add_word(key, (idx, key))
    
  4. 调用 make_automaton() 方法完成并创建 Aho-Corasick 自动机:a.make_automaton()

创建好自动机后,可以使用以下主要方法进行搜索操作:

  • iter(string, (start, (end))):使用提供的输入字符串执行 Aho-Corasick 搜索过程。它返回一个迭代器,为在字符串中找到的键返回元组 (end_index, value),其中 end_index 是匹配结束的索引位置,value 是与匹配的键相关联的值。

  • iter_long(string, (start, (end))):返回一个搜索最长、非重叠匹配的迭代器(automaton_search_iter_long 类的对象)。

以下是一个使用 ahocorasick.Automaton 进行多模式字符串搜索的示例代码:

import ahocorasick as aha = ah.automaton()with open('userdict.txt', 'r', encoding='utf-8') as f2:  # 加载文件keywords = (a.strip() for a in f2.readlines())  # 加载关键词# 利用 add_word 方法将关键词加入自动机!for x in range(len(keywords)):a.add_word(keywords[x], (x, keywords[x]))  # 第二个参数为自定义的返回值# 创建 aho-corasick 自动机
a.make_automaton()with open('jianjie.txt', 'r', encoding='utf-8') as f:  # 打开要检索文档jianjie = f.read()  # 读取正文(如果太多,可以分断加载,分段检索)# 开始查找,该方法匹配最长的字符串
for item in a.iter_long(jianjie):print(item)
print('-' * 20)# 开始查找,该方法匹配所有字符串
for item in a.iter(jianjie):print(item)

在上述示例中,首先创建了一个自动机对象 a,然后从文件中读取关键词,并使用 add_word 方法将关键词添加到自动机中。接着调用 make_automaton 方法创建 Aho-Corasick 自动机。最后,通过打开另一个文件读取要搜索的正文,并使用 iter_longiter 方法进行匹配查找,并打印出匹配的结果。

Aho-Corasick 自动机的优点包括能够在一次运行中找到给定集合所有字符串,适用于多模式字符串匹配的场景,例如网络内容过滤、版权检测、病毒扫描等,在自然语言处理中查找特定词汇或模式,以及生物信息学中在 DNA 或蛋白质序列分析中寻找特定的序列模式等方面都有应用。

http://www.wangmingla.cn/news/24062.html

相关文章:

  • 做任务拿赏金的网站百度百科分类方法
  • 零代码开发平台360优化大师官方免费下载
  • 做网站头视频广州网络推广万企在线
  • 杭州公司代办广东短视频seo营销
  • 营销型网站建设的选择方式百度文库网页版登录入口
  • 怎么自己创建一个网站手机百度搜索指数和资讯指数
  • 国家建设工程安全质量监督网站免费b2b推广网站
  • 在线3d建模网站seo交流论坛
  • 广州建设银行预约公积金网站太原建站seo
  • 内容营销的方式seo培训优化课程
  • 114做网站诈骗网站制作公司高端
  • 敦煌网站销售员怎么做网站运营工作的基本内容
  • 铭万做的网站网络软件开发
  • 越南的网站建设网站推广优化c重庆
  • 网站的层级上海关键词排名搜索
  • 手机网站建设ppt宽带营销案例100例
  • 宝安中心站新东方托福班价目表
  • 微信管理助手新手做seo怎么做
  • 网页制作与设计课程设计报告重庆网页优化seo
  • 海尔网站推广策划方案长沙网络推广平台
  • wordpress gdrive备份seo是如何做优化的
  • 网站建设与管理广东药学院澳门seo关键词排名
  • 国人wordpress企业主题seo排名规则
  • 抓取网站源码怎么做镜像百度搜索页面
  • 黑龙江省建设局网站网络营销的方式有几种
  • 湖南 网站建设安装百度到手机桌面
  • wordpress sina青岛seo关键词优化排名
  • 东莞网站建设总结全网seo优化电话
  • 低成本做网站 百知企业网站建设的重要性
  • 网站后台管理是做一些什么龙华网站建设