0%

问题描述

Selenium是一个自动化测试工具,它支持各种浏览器和平台。由于它能够模拟用户的浏览器操作,因此也被广泛用于网络爬虫领域,尤其是那些需要执行JavaScript、处理复杂交互或模拟用户行为的场景。

尽管使用Selenium在网络爬虫方面有很多优势,但是要想使用Selenium去驱动浏览器操作,还必须要使用相应浏览器的驱动程序,例如:以Chrome浏览器为例,要想使用Selenium去操作Chrome浏览器,除了要下载浏览器之外,还需要准备相适应的ChromeDriver驱动软件。

这个时候就会出现一个问题,由于电脑的Chrome会一直进行自动更新,而ChromeDriver驱动软件是自己额外下载的,它不会随着浏览器的升级而升级,所以这个时候就会导致ChromeChromeDriver之间不适配,从而导致Selenium无法驱动Chrome,并且ChromeDriver更新的速度远远跟不上Chrome更新的速度。这个问题一直都困扰着很多的网络爬虫工作者和初学者。

基于此,本博文提出了一种一劳永逸的配置方法,使得在使用Selenium不用被Chrome自动更新带来的版本问题所困扰。

解决问题的方式,使用Chrome开发者版本Chromium去替代自带的Chrome浏览器。

阅读全文 »

马尔可夫模型

首先,我们来看一下马尔可夫模型。

马尔可夫模型(Markov Model):马尔可夫模型是一种统计模型,它基于马尔可夫性质进行建模。马尔可夫性质指的是系统的下一个状态仅取决于其当前状态,而与过去的状态无关。这种性质使得马尔可夫模型在处理一系列具有时间依赖性的数据时非常有用。

广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。经过长期发展,尤其是在语音识别中的成功应用,使它成为一种通用的统计工具。

阅读全文 »

硬件资源准备

首先需要准备计算机的硬件资源,可以是本地服务器,也可以是云服务器。

显存要求:12GB

由于我本地计算机没有相应的GPU资源可以直接调用,故选择云服务器资源。我选择的云服务器厂商是腾讯云,云服务器租赁教程如下:

  1. 首先,登录腾讯云,然后在首页选择产品。

    image-20240320200717006

    阅读全文 »

什么是张量?

  1. “Tensor”(张量)是一个数学和计算机科学术语,用于表示多维数组的数据结构。在深度学习和机器学习中,张量是一种常见的数据结构,用于存储和表示多维的数据,如标量(0维张量,即单个数值)、向量(1维张量,如一维数组)、矩阵(2维张量,如二维数组)以及更高维度的数据。张量可以包含整数、浮点数或其他数据类型,具体取决于应用的需要。
  2. 在深度学习中,张量是神经网络的核心数据结构。神经网络的层、权重、激活函数和输入都表示为张量。张量的多维性使其适用于处理各种复杂的数据,如图像、文本、音频等,并且能够在GPU和TPU等计算资源上执行并行式计算,大大提高资源利用率。
1
import torch
1
torch.__version__
'2.1.0+cu121'
阅读全文 »

前言

大家在使用Centos操作系统安装软件包和库时,经常会使用到yum命令去安装相关软件,使用yum时会自动去下载安装软件所需的所有依赖,这种方式极大提高了用户安装软件的速度。

但是,有些场景下这种方式又会带来一些问题,比如在离线安装的场景下【比如:政府部门、高校等部门服务器是不允许连接互联网的】,依赖问题就无法在线解决,这个时候就需要使用到离线安装技术。

阅读全文 »

引言

在工作中我们经常会遇到这样的一些问题,例如公司服务器数据存放在公司内容,现在在外面出差无法通过资源浏览器直接访问,通常的做法是使用远程控制软件如to_desk、向日葵等等,这种方式虽然能够解决我们文件查找的问题,但是在进行传输的时候,第三方工具的传输速度太慢,并且这种方式也不太优雅;再比如,公司在做开发时,一般是很多人一起完成一个项目,每个人负责一部分代码,这个时候就设置到一个代码同步的问题,场景的做法就是在局域网中搭建gitlab,然后大家统一将代码上传到gitlab,但是有的时候由于一些原因有些工作需要回家完成,但是在家完成后又无法直接上传到公司的局域网gitlab,和其他同事之间就无法进行及时的同步进度~~~~。

这些问题在学习完本文的内容后都会得到解决。

安装前的准备工作

设备

我在这里演示的设备有3个:

  1. 服务端:阿里云服务器Centos7操作系统。【服务端一定要位于公网】
  2. 客户端1:本机Windows11操作系统。
  3. 客户端2:公司服务器Centos7操作系统
阅读全文 »

项目目录结构

例如,在此演示的发布库的项目结构如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
MinglogUtils
├─LICENSE
├─README.md
├─setup.py
├─CVUtils
│ ├─CVUtils.py
│ ├─test.py
│ ├─__init__.py
│ ├─files
│ │ ├─province.txt
│ │ └─WordAndNum.txt
│ └─__pycache__
│ ├─CVUtils.cpython-38.pyc
│ └─__init__.cpython-38.pyc
└─SpiderUtils
├─SpiderUtils.py
└─__init__.py
阅读全文 »