当前位置: 首页 > news >正文

网站选项卡整站优化价格

网站选项卡,整站优化价格,自媒体有哪些平台,做外贸自己开公司网站有如下一个网页,想要抓取其中内容,主要是IP Address和Port,使用python实现。 用F12看一下网页源代码,对应上图表格内容的部分如下: 使用python和lxml来定位爬取。 首先要安装lxml,如下命令(可以…

有如下一个网页,想要抓取其中内容,主要是IP Address和Port,使用python实现。

用F12看一下网页源代码,对应上图表格内容的部分如下:

 

使用python和lxml来定位爬取。

首先要安装lxml,如下命令(可以在pycharm项目的Terminal中运行):

pip3 install lxml

实现代码:

from lxml import etree
import requestsurl = 'https://www.example.com'
r = requests.get(url)
result = r.text
html = etree.HTML(result)rows = html.xpath(".//div[@class='table-responsive fpl-list']/table/tbody/tr[position()>0]")proxy_list = []
for row in rows:td_list1 = row.xpath('./td[1]')td_list2 = row.xpath('./td[2]')ip = td_list1[0].text.replace(' ','').replace('\t','').replace('\n','')port = td_list2[0].text.replace(' ','').replace('\t','').replace('\n','')web_proxy = {'ip': ip, 'port': port, 'types': 0, 'protocol': '0', 'country': '0', 'area': '0', 'speed': 100}proxy_list.append(web_proxy)print(proxy_list

说明:

在HTML中,tr、td、th是用于构建表格的核心标签‌:tr(Table Row)定义表格行,td(Table Data)定义标准数据单元格,th(Table Header)定义表头单元格。‌‌

结合上述代码,rows即是获取的表格中的所有行。

然后针对每一行进行操作。从每一行中,定位并获取需要的单元格的文本内容(此行第一列的单元格就是td[1],第二列就是td[2],使用.text获取其文本内容,注意:使用row.xpath获取出的是一个列表,需要加一个[0]来成为单个元素)。

http://www.wangmingla.cn/news/131736.html

相关文章:

  • 台州做网站哪家公司好seo网站优化收藏
  • wordpress怎么调用外部主题网页重庆seo排名优化费用
  • 网站建设开票应该开哪个行业中国舆情观察网
  • 网站备案系统登录软文推广代理平台
  • 兰州北京网站建设seo黑帽是什么
  • 长沙网站设计培训谷歌搜索关键词排名
  • 黄页88网站网页制作与设计
  • 做浏览任务赚钱的网站2021热门网络营销案例
  • 东莞搜索引擎推广seo网站推广优化
  • 电影网站开发教程微信营销神器
  • 上海网站建设费用多少钱百度手机关键词排名工具
  • 成品网站源码下载长春网站建设方案咨询
  • wordpress支持伪静态上海搜索引擎优化1
  • 创建公司网站免费站群seo技巧
  • 网站推广计划渠道seo静态页源码
  • 网站建立费用多少钱网络公司seo推广
  • 音乐网站开发文档2023年3月份疫情严重
  • 网站制作在哪里找注册网站流程和费用
  • 如何做网站建设业务员百度推广客服工作怎么样
  • 商城网站建设定制网站建设seo工作是什么意思
  • 网站首页设计怎么做教你免费申请个人网站
  • 网站开发人员招聘广告语商品推广软文范例100字
  • 万维网站续费多少一年手机系统流畅神器
  • 深圳开发网站建设哪家好西部数码域名注册官网
  • ui培训机构排名兰州seo新站优化招商
  • 福州网站建设推广扬州百度推广公司
  • 软件园二期做网站的公司郑州seo使用教程
  • 企业网站建设的三种方式并举例百度游戏官网
  • 河北疫情最新消息数据优化人员是什么意思
  • 橙云网站建设爱站网官网关键词