除了基础的域名与服务器以外,技术性SEO还包括针对用户体验度的设置,以及针对搜索引擎蜘蛛爬取友好的设置。
Favicon站点图标
Favicon,是Favourite Icon的简称,也称作Website Icon(网页图标)、Page Icon(页面图标)或URL Icon(URL图标)。一个网页的favicon.ico通常可以在浏览器地址栏、标签栏,或者被保存为书签后可见(如图1所示)。
图1 Favicon 浏览器地址栏展示
Favicon文件代码参考:<linkrel="shortcuticon"href="/favicon.ico"/>,网站使用Favicon的最大好处就是增加网页的辨识度,因为通常Favicon使用的都是Logo图,同时也可以增强品牌性。
Sitemap文件
Sitemap文件,一种是XML格式的网站地图展示形式,是为了方便搜索引擎抓取;另一种以HTML的形式展示,是为了方便用户浏览,从而提升用户体验度。
1.XML Sitemap
文件sitemap.xml中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度等),目的是方便搜索引擎能够更加智能地抓取网站,提高网站页面被收录、索引的效率,从而提高网站/网页在SERP中的排名或提高SEO效果。
XML Sitemap也可以根据实际情况做分类,如Normal Sitemap,Image Sitemap,Video Sitemap,News Sitemap等。常规XML站点地图包括常规的链接地址、上次更新时间、更新频率和网站内重要程度等信息。
示例:
<?xmlversion="1.0"encoding="UTF-8"?>
<urlsetxmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2022-05-01</lastmod>
<changefreq>daily</changefreq>
<priority>1</priority>
</url>
</urlset>
2.XMLSitemap的基本要求
(1)仅包含Canonical链接,状态200。
(2)每个站点地图最多包含20万个URL,一般上限为5万个。
(3)备注到robots.txt文件中。
(4)UTF-8Encoded。
3.图像站点地图
通常情况下,可以将图像添加到常规XML站点地图中。如果有很多这样的文件,最好为图像创建一个单独的XML文件。
示例:
<?xmlversion="1.0"encoding="UTF-8"?>
<urlsetxmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:image="http://www.google.com/schemas/sitemap-image/1.1">
<url>
<loc>http://example.com/sample.html</loc>
<image:image>
<image:loc>http://example.com/image.jpg</image:loc>
</image:image>
<image:image>
<image:loc>htp://example.com/photo.jpg</image:loc>
</image:image>
</url>
</urlset>
*参考来源:https://support.google.com/webmasters/answer/178636?hl=en
4.视频站点地图
可以在站点地图上添加视频,与图片类似,视频也会在站点地图中列出,与页面/URL相关。如果只有几个包含视频的页面,只需在普通的站点地图中添加该信息即可。如果网站有一个独立的板块专门放了视频,那么就可以考虑将它们设置成一个独立的站点地图。
示例:
<urlsetxmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:video="http://www.google.com/schemas/sitemap-video/1.1">
<url>
<loc>http://www.example.com/videos/some_video_landing-page.html</loc>
<video:video>
<video:thumbnail_loc>http://www.example.com/thumbs/123.jpg</video:thumbnail_loc>
<video:title>Grilling steaks for summer</video:title>
<video:description>Alkis shows you how to get perfectly done steaks every
time</video:description>
<video:content_loc>
htp://streamserver.example.com/videol23.mp4</video:content_loc>
<video:player_loc>
http://www.example.com/videoplayer.php? video=123</video:player_loc>
<video:duration>600</video:duration>
<video:expiration_date>2027-11-05T19:20:30+08:00</video:expiration_date>
<video:rating>4.2</video:rating>
<video:view_count>12345</video:view_count>
<video:publication_date>2007-11-05T19:20:30+08:00</video:publication_date>
<video:family_friendly>yes</video:family_friendly>
<video:restrictionrelationship="allow">IE GB US CA</video:restriction>
<video:pricecurrency="EUR">1.99</video:price>
<video:requires_subscription>yes</video:requires_subscription>
<video:uploader
info="http://www.example.com/users/grillymcgrillerson">GrillyMeGrillerson
</video:uploader>
<video:live>no</video:live>
</video:video>
</url>
</urlset>
*参考来源:https://support.google.com/webmasters/answer/80471?hl=en
5.新闻站点地图
如果网站上有一个独立的新闻板块,可以在站点地图中指定它。因为谷歌有一款News产品,当需要快速索引时,这个新闻的站点地图就可以派上用场。
示例:
<?xmlversion="1.0"encoding="UTF-8"?>
<urlsetxmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:news="http://www.google.com/schemas/sitemap-news/0.9">
<url>
<loc>http://www.example.org/business/article55.html</loc>
<news;news>
<news:publication>
<news:name>TheExampleTimes</news:name>
<news:language>en</news:language>
</news:publication>
<news:publication_date>2008-12-23</news:publication_date>
<news:title>CompaniesA,B in Merger Talks</news:title>
</news:news>
</url>
</urlset>
*参考来源:https://support.google.com/news/publisher-center/answer/9606710?hl=en
6.HTML站点地图
HTML站点地图是一个HTML页面,在这个页面上列出了网站的所有子页面。sitemap.html通常放在网站的页脚,因此对所有访问者可见。与XML站点地图相比,HTML站点地图主要是为用户创建的,它们可以帮助用户了解站点的结构并浏览所有子页面。从视觉上看,HTML站点地图类似于一个导航栏,其中列出了所有页面,访客可以单击每个链接以到达相应的子页面。
因为HTML站点地图列出了所有的子页面,所以很容易导致页面超载或者显示混乱。为了避免这个问题,有两种方式可以选择:一种是将站点地图限制在最重要的页面上,包括主要类别以及最相关的子页面;另一种是将站点地图划分为多个层次结构,如可以列出字母表中的所有字母,因此当用户单击某个字母时,将出现一个新页面,其中包含以该字母开头的所有子页面,如果需要,可以再次细分这些页面,直到站点地图上有网站所有页面的链接。
对于较小的网站,可以在一个HTML页面上列出所有子页面。链接可以按时间顺序排列、按主导航结构排列,也可以根据网站的内容,按字母顺序排列。但是,应该避免放置过多链接影响用户体验。
HTML站点地图对于网站的可用性非常重要,因为它们使用户只单击几下就能够快速地访问任何子页面。在网站没有清晰导航条的时候,这一点更重要。
HTML站点地图在搜索引擎优化(SEO)方面也很有用,因为它们使谷歌和其他搜索引擎爬虫更容易找到所有子页面。由于HTML站点地图由内部链接组成,搜索引擎爬虫(如Googlebot)会跟踪这些链接,这样它们只需几个步骤就可以访问所有子页面。此外,还可以使用HTML站点地图将链接资产从主页传递到站点的子页面。在谷歌站长工具中,谷歌也建议为用户创建站点地图。合理利用HTML站点地图可能带来意想不到的谷歌首页排名,如结合网站架构和关键词地图进行锚文本设置。
7.什么情况下需要Sitemap文件
(1)网站很大。
大型信息或新闻媒体网站以及业务范围很广的集团网站,如果网站有很多页面,这就意味着很快就会用光搜索引擎的爬行预算。而站点地图的设置,虽然对提高爬行预算没有帮助,但可以帮助网站更快地获得更深层的页面索引。
另外,一个大的网站也可能意味着经常更新,如发布新产品、删除旧产品、发布新闻等。正确地设置XML站点地图可以确保谷歌蜘蛛爬行和索引站点上重要的页面和新的页面。
(2)站内链接少。
如果网站的站内链接少,页面之间相互链接少,可能导致有些页面很难被搜索引擎搜索到,站点地图的设置可以很好地帮助搜索引擎发现这些层级深或链接少的页面。
需要注意的是即使站点地图中没有这些链接,也可能被谷歌正常索引到。但如果这些页面没有任何指向它的链接,也不会有任何页面排名,因为搜索引擎认为没有反向链接的网页都是不重要的网页,因此,在实际优化过程中,一方面需要增加站内链接指向重要页面,另一方面要增加站外链接指向重要页面,两者都很重要。
(3)网站新上线。
由于网页是谷歌蜘蛛在链接之间爬取时发现的,所以有其他网站链接到需优化的企业网站来表面它的存在是非常重要的。但一个新上线的网站通常还没有大量的外部链接进来,这时设置站点地图可以帮助搜索引擎快速发现站点上的新页面。
8.Sitemap生成工具参考
https://www.xml-sitemaps.com/,
https://slickplan.com/,
https://dynomapper.com/features/visual-sitemap-generator,
https://writemaps.com/,
https://www.screamingfrog.co.uk/xml-sitemap-generator/,
https://www.powermapper.com/products/ondemand/。
以上工具都有一定时间的免费试用期和额度,其中xml-sitemaps.com可免费生成500张以内页面。
另外,站点地图的目标是让搜索引擎知道新的页面,所以应该在页面发布后立即更新它,如果系统支持自动更新Sitemap文件更好。sitemap.xml可以通过Google Search Console进行提交,以提高页面索引的效率。
Robots.txt文件
1.Robots.txt文件是什么
Robots协议也叫robots.txt,是一种存放于网站根目录下的ASCH编码的文本文件,它告诉Robots(通常是搜索引擎爬虫)在站点上要抓取哪些页面,不要抓取哪些页面。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。文件robots.txt应放置于网站的根目录下。
当一个搜索引擎爬虫访问一个站点时,它会优先检查该站点根目录下是否存在robots.txt,如果存在,引擎爬虫就会按照该文件中的内容来确定访问的范围;如果不存在,所有的引擎爬虫都将能够访问网站上所有没有被密码保护的页面。
robots.txt文件也称为机器人排除协议,被当作是合理的搜索引擎优化黑客。
Robots协议并不是一个规范,只是约定俗成的,所以并不能保证网站的隐私。Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
(1)搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权。
(2)网站有义务保护其使用者的个人信息和隐私不被侵犯。
2.Robots.txt文件的基本框架
基本框架为:
User-agent:*
Disallow;/
“User-agent”后面的星号表示robots.txt文件适用于访问该站点的所有Web机器人:
“Disallow”后面的斜杠告诉机器人不要访问网站上的任何页面。
通常情况下,Disallow建议只设置无优化价值的网页和需要保护隐私的网页。毕竟SEO的主要目标之一就是让搜索引擎轻松地搜索站点网页,从而提高排名。
如果不做Disallow设置,搜索引擎会抓取网站的每个页面。如果有很多页面,搜索引擎机器人会花一段时间来抓取它们,这可能会对排名产生负面影响。这是因为Googlebot(谷歌的搜索引擎爬虫)有一个“爬行预算”。这可以分为两部分:
第一是爬行速度限制。一方面表现为谷歌蜘蛛会根据网站响应速度快慢来决定使用多少个同时载入的链接来抓取网站;另一方面爬行速度限制表现在谷歌蜘蛛在完成一次抓取后需要等待一定的时间才能执行下一次抓取。
第二是抓取需求。基本上抓取预算是Googlebot可以和想要抓取的URL数,要帮助Googlebot以最好的方式为网站花费爬行预算。换句话说,它应该抓取最有价值的页面。但有一些因素会消极地影响站点的爬行和索引。
3.影响爬行预算的因素根据分析,拥有许多低附加值的URL会对网站的爬行和索引产生负面影响。低附加值的URL可以分为以下几类,按重要性排序如下:
(1)分页导航和会话状态。
(2)站内重复内容。
(3)404错误页面。
(4)被黑的页面。
(5)无限空间和代理。
(6)低质量和垃圾内容。
在这样的页面上浪费爬行预算会导致真正有价值的页面延迟被爬行,错过最佳时机。
通过正确地使用robots.txt,可以告诉搜索引擎机器人如何明智地使用它们的爬行预算。这就是robots.txt文件在SEO中如此重要的原因。
4.如何找到robots.txt文件
如果只是想快速浏览一下robots.txt文件,有一个简单的方法,这种方法适用于任何站点。所要做的就是在浏览器的搜索栏中输入网站的域名地址(如yinqingli.com,googleseo.cn等),然后在末尾添加/robots.txt。
5.如何优化robots.txt文件
robots.txt文件的最佳用途之一是通过告诉搜索引擎不要抓取站点中不向公众显示的部分来最优化搜索引擎的抓取成本。如何优化robots.txt完全取决于站点上的内容,使用robots.txt方法也有多种。
6.几种常见的可排除页面类型
(1)有目的的重复内容。
虽然重复的内容是一件坏事,但是在少数情况下它是必要的和可接受的,这时候我们需要将重复的页面通过robots.txt进行屏蔽处理。
(2)用于感谢的提交页面。
感谢页面是营销人员最喜欢的页面之一,因为它意味着一个新的询盘。实际情况是有些感谢页面可以通过谷歌搜索结果内容直接点击访问,这意味着人们不需要经过咨询过程就可以访问这些页面,通过屏蔽感谢页面,可以确保只有询盘提交者能够看到。
(3)用户登录注册页面。
robots.txt测试工具:https://www.google.com/webmasters/tools/robots-testing-tool。
页面结构化数据
在Head内添加结构化数据,增加其他分类的结构化数据。
首页结构化数据参考网址:https://schema.org/Organization
面包屑结构化数据参考网址:https://schema.org/BreadcrumbList
产品页结构化数据参考网址:https://schema.org/Product
产品列表页结构化数据参考网址:https://schema.org/ItemList
新闻文章结构化数据参考网址:https://schema.org/Article
FAQ结构化数据参考网址:https://schema.org/Question
死链接
死链接又称无效链接,最常见的是404链接。简单地讲,死链接是指原来正常、后来失效的链接。死链接发送请求时,服务器返回404错误页面。
404或未发现的错误消息(HTTP404页面,404文件或目录未找到)是一个标准的响应代码,表明服务器找不到请求的URL,或者无法实现该请求,但客户端实际上能够与给定的服务器通信。404未发现错误消息可以出现在任何浏览器或操作系统中。大多数404未发现错误和网页一样显示在互联网浏览器窗口中,404页面一般是由网站定制的。
此外,404错误通常是客户端错误,这意味着这种错误是客户操作失误造成的,其原因一种可能是URL输入错误,或者页面已经从网站中移动或删除。另一种可能性是一个网站移动了一个页面或资源,但没有将旧的URL重定向到新的URL(通常使用301重定向)。当这种情况发生时,客户将收到一个404错误,而不是被自动跳转到新页面。
如果一个网站存在大量的死链接,一方面会损伤网站的整体形象,另一方面会对搜索引擎不友好,因为搜索引擎爬虫是通过链接来爬行的,如果链接无法到达,不但网站收录页面数量会减少,而且网站在搜索引擎中的权重也会大大降低,所以避免死链接对SEO优化很重要。
常见检查死链接的方法和工具有两个:一是Google站长工具,Google Search Console;二是Xenu死链接检测工具,需要安装客户端软件,检查结果报告非常详细。
Canonical标签
Canonical标签是为了避免重复内容的收录,搜索引擎通过算法对网页内容及链接进行识别,对内容完全相同或者高度相似的网页给出一个系统认为规范的网页结果并建立索引供用户查询。
Canonical是一个HTML的代码标签,是用来告诉搜索引擎哪个页面是权威页面,代码样式:<linkrel="canonical"href="https://www.yinqingli.com/"/>,放在页面Head部分。
1.Canonical标签的作用
Canonical标签可以使网址规范化,可以避免内容重复页面,可以集中传递页面权重,可以与Alternate标签一起使用,可以使搜索引擎收录更准确。
为了使搜索引擎能够理解PC端和移动端页面之间的关系,PC端页面需要指向移动属性,并且移动端页面使用规范URL“确认”关系。用Alternate标签和Canonical标签做移动适配声明:
(1)PC端:
<linkrel="canonical"href="https://www.example.com/">
<linkrel="alternate"media="onlyscreenand(max-width:640px)"href="https://m.example.com/">
(2)移动端;
<linkrel="canonical"href="https://www.example.com/">
以上关于URL地址结构的更多说明,可查阅谷歌:https://support.google.com/webmasters/answer/76329?hl=en。
网站难免会出现同样的内容但URL地址不同的情况,这种不规范就会导致多个URL分散页面权重,不利于排名。对搜索引擎来说,浪费资源,浪费带宽。如果网站规范化问题太严重,也会影响收录,因为搜索引擎爬虫爬取一个网站的配额是有限的,所以需要规范URL地址让爬虫爬取那些有价值的页面。通过使用Canonical标签可以告诉搜索引擎哪个页面为规范的网页,能够规范网址并避免搜索结果中出现多个内容相同或相似的页面,帮助解决重复内容的收录问题,避免网站相同内容网页的重复展示及权重的分散,提升规范网页的权重,优化规范网页的排名。
2.Canonical标签具体的使用场景
网站URL设置不规范,导致一个页面对应多个URL,因为站点功能限制,不能直接使用301重定向来解决这个问题,因此会使用Canonical标签来告知搜索引擎哪个页面是主推页面。
网站改版或网站域名变更后,由于某些原因导致站点不能设置301重定向,会使用Canonical标签来标注新版页面的URL(阿里云虚拟主机,只能首页301跳转,内页不能进行301跳转设置。
B2C商城电商类站点,会出现同一个商品拥有多个历史版本介绍的情况,以及同一列表按照价格、时间、人气、信用等进行排序后页面内容和默认排序高度相似的情况,这个时候可以使用Canonical标签解决内容重复问题。
当网站拥有独立的PC端和移动端的时候,需要用Canonical和Alternate的标记让两个版本的页面对应起来,具体操作方式如下:
在PC端网页上,添加指向对应移动端网址的特殊链接rel="alternate"标记,这有助于搜索引擎发现网站的移动版网页所在的位置;在移动端网页上,添加指向对应PC端网址的链接rel="canonical"标记。