您的当前位置:首页正文

2.初始爬虫之HTML基础知识

2024-11-07 来源:个人技术集锦

1、HTML 是什么
HTML(Hyper Text Markup Language)是用来描述网页的一种语言,也叫超文本标记语言 。
1.1、查看网页的 HTML 代码
①、显示网页源代码在网页任意地方点击鼠标右键,然后点击“显示网页源代码”。(Windows系统的电脑还可以使用快捷键ctrl+u来查看网页源代码)
②、检查windows:在网页的空白处点击右键,然后选择“检查”(快捷方式是ctrl+shift+i);mac:在网页的空白处点击右键,然后选择“检查”(快捷键 command + option + I(大写 I ))
2、HTML 的组成
2.1、标签和元素
(1)标签:夹在尖括号<>中间的字母,标签通常是成对出现的:前面的是【开始标签】,比如;后面的是【结束标签】,如;(2)元素:开始标签+结束标签+中间的所有内容组成。
注意:HTML标签是可以嵌套标签的,而且可以多层嵌套;这就像是在电脑中,一个硬盘可以包含数个文件夹,文件夹中还可以嵌套文件夹。

一级标题

二级标题

段落文本 超链接文本
其他元素或文本,块 2.2、网页头和网页体 HTML文档的最外层标签一定是,里面嵌套着元素与元素。元素代表了【网页头】,元素代表了【网页体】,这是最基本的网页结构。(1)【网页头】的内容不会被直接呈现在浏览器里的网页正文中;(2)【网页体】的内容是会直接显示在网页正文中的。
<html>
	<head>
	网页头的具体内容
	</head>
	<body>
	网页体的具体内容
	</body>

</html>

2.3、属性
注意:HTML的属性和Python中的属性不是一个东西
①、h1 标签及其对应的属性 style

这个书苑不太冷


②、a 标签及其对应的属性 href

class 为html元素定义一个或多个类名(classname)
id 定义元素的唯一id
href 用来定义链接
style 规定元素的行内样式(inline style)

显示全文