url
一个url由以下几个部分组成 scheme://host:port/path/?query-string=xxx#anchor scheme 表示访问协议一般以https或者http以及ftp host 主机名 port 端口号 path 查找路径 query-string 查询字符串 anchor 锚点 注意 url ascll码做法
一个url由以下几个部分组成 scheme://host:port/path/?query-string=xxx#anchor scheme 表示访问协议一般以https或者http以及ftp host 主机名 port 端口号 path 查找路径 query-string 查询字符串 anchor 锚点 注意 url ascll码做法
1、创建方法 打开终端 创建项目 django-admin startproject [项目名称] 创建app python manage.py startapp [app名称] 2、运行 下载完django后,终端输入 python 相对路径/manage.py runserver 3、结构 manage.py 项目交互的文件,一般情况下不需要操作 s...
python 爬虫 format方法 当我们需要输出一个需要自己放置变量的东西时,可以使用format方法 txt="我叫{xx},我今年{yy}岁".format(xx=?,yy=?) #其中问号为自己想赋值的变量 #同样也是可以在print中使用 #若是要保留小数,那么直接format(xx=?:.2f,yy=?:.2f) 导包 1、import 模块名 (使用...
1、实例化etree对象 #如果是本地的html页面直接调用etree方法 from lxml import etree etree.parse(filepath)#文件路径 #如果是网页的html页面 etree.HTML('page_text') 2、xpath表达式 /:表示从根节点开始 /html/body/div //:表示多个层级 #做属性定位, 例...
爬取文件导入本地常见错误 1、导入html页面的文字类型是不对的 #使用chardet库 import chardet #再导入获取html页面时将他的encoding转化成当前的页面的文字 ress=requests.get(url=find_url[i],headers=headers) ress.encoding = chardet.detect(ress.content)['e...
BeautifulSoup 1、BeautifulSoup使用方法 from bs4 import BeautifulSoup #从bs4库拿出BeautifulSoup #soup=BeautifulSoup(<文件位置>,解析器) #!! #soup.(html标签名称a\p\span...)返回html中第一次出现的标签值 #soup.find('标签名称'))返回ht...
正则表达式 1、re正则的python包 import re 2、正则匹配函数search(r) search函数传入参数 1、查找参数,可以为正则表达式 2、数据 如果不能够查找,那么返回None 如果可以被查找,.span()可以查看该参数出现的具体位置(起始位置,终止位置+1) !!!只返回第一个能找到的 3、findall函数 ...
http协议 超文本传输协议,浏览器和服务器之间传输的协议 包含三大块 请求 1.请求行 -> 请求方式(get/post) url 协议 2.请求头 -> 服务器使用的附加信息 3.请求体 -> 请求参数 响应 1.状体行 -> 协议,状态码 2.响应头 -> 客户端的附加信息 3.响应体 -> 服务器返回客户端的内容 请求...
Your content here
本文旨在搭建一个github.io个人主页项目 操作系统win11+vscode+docker 准备工作 Ruby&Jekll 下载Ruby&Jekll 1.选择最新版本进行,否则会导致后续出现问题,满足RubyGems version >=3.3.22,安装时将gem源改为清华源 2.打开exe执行文件 操作过程中会弹出cmd,需要输出选择选项 此时选择3...