0%

什么是uv工具

uv 是一个用于 Python 包管理的现代工具,它旨在替代 pipvirtualenv,提供更快、更高效的包安装与虚拟环境管理体验。uv 是由 Astral 团队开发的,并逐渐成为 Python 社区中的一个热门替代工具。

简而言之,uv 是一个 超快的 Python 包管理器,它集成了:

  • 包安装(替代 pip
  • 虚拟环境管理(替代 virtualenv
  • 锁定文件(兼容 pip-toolsPoetry
阅读全文 »

DatasetsHugging Face开源,用于轻松访问和共享音频、计算机视觉和自然语言处理(NLP)任务的数据集。只需一行代码即可加载数据集,并使用强大的数据处理方法快速让你的数据集准备好在深度学习模型中进行训练。在Apache Arrow格式的支持下,以零拷贝读取的方式处理大型数据集,没有任何内存限制,以实现最佳速度和效率。
并且Datasets还与Hugging Face Hub深度集成,允许我们轻松加载数据集并与更广泛的机器学习社区共享数据集。

Datasets可以用来构建3中形式的数据:

  1. 文本
  2. 音频
  3. 图像

为了演示效果,在这里我仅以文本数据为例进行相关演示,关于音频和图像的使用,各位可以前往Hugging Face官网学习。

阅读全文 »

Transformers中的Tokenizers(分词器)是处理文本的重要组件,它将原始文本转换为模型能够理解的数字序列。

Tokenizers的作用:

  1. 文本预处理:将原始文本转换为token序列
  2. 词汇映射:将token映射为数字ID,这些ID是模型实际处理的输入
  3. 特殊标记添加:添加[CLS], [SEP], [PAD]等特殊标记
  4. 处理长度限制:对过长序列进行截断,对过短序列进行填充
阅读全文 »

1. 基本介绍

1.1 HuggingFace

Hugging Face 是一个专注于人工智能和机器学习的开源社区和平台,它已经成为 AI 领域最重要的社区之一。

阅读全文 »

需求:完成一个Seq2Seq模型,实现往模型中输入一串数字,输出这串数字+0

例如:

  • 输入:15925858456,输出:159258584560
1
2
3
4
import torch
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
阅读全文 »

数据说明

数据来源:清华大学的THUCNews新闻文本分类数据集

  • 训练集:180000
  • 验证集:10000
  • 测试集:10000

总共来自十个类别:金融,房产,股票,教育,科学,社会,政治,体育,游戏,娱乐

阅读全文 »

文本向量化

文本向量化是将文本数据转化为数值向量的过程,它在自然语言处理(NLP)和机器学习任务中非常重要,有以下几个关键原因:

  1. 数学建模: 计算机无法直接处理文本数据,因为文本是符号性的,不是数字。通过将文本向量化,可以将文本数据转化为计算机可以理解和处理的数值形式。这为数学建模、机器学习和深度学习提供了基础。
  2. 特征提取: 文本向量化将文本数据中的信息提取出来,并将其表示为特征向量。这些特征向量包含了文本数据的语法和语义信息,使其可用于各种任务,如文本分类、情感分析、主题建模等。
  3. 模型输入: 机器学习和深度学习模型通常接受数值输入。将文本向量化为数值向量后,可以将其用作模型的输入。这使得文本可以与其他数据类型(如图像、数值数据)一起用于训练和预测。
  4. 计算相似性: 向量化后的文本使得计算文本之间的相似性变得更容易。可以使用向量空间模型(Vector Space Model)来测量文本之间的相似性,这对于信息检索、文档相似度计算和推荐系统非常有用。
  5. 维度减少: 向量化可以将高维的文本数据表示转化为低维的数值向量,从而减少数据的复杂性,提高计算效率和模型训练速度。
  6. 特定任务需求: 某些NLP任务,如情感分析或文本分类,需要将文本映射为类别或情感极性。文本向量化可以满足这些任务的输入要求。
阅读全文 »

相关概念

节点:节点是ComfyUI的重要组成成分。节点可以有多个输入和多个输出。

连线:不同的节点之间采用连线的方式进行协同工作。

连线只能从某个节点的输出连接到另一个节点的输入。

连线的两端必须是相同的类型。

工作流:所有的节点及其连线构成一个完整的工作流。

阅读全文 »

AutoDL简介

AutoDL是一个GPU租用平台,它提供了各种型号的服务器供用户选择,使得用户可以在云端进行深度学习模型的训练和推理。这个平台的特点包括网络无要求、部署简单、稳定,且价格合理。无论是使用Mac电脑还是低配置的Windows电脑,用户都可以完全通过云端部署,自己租用服务器,并通过浏览器打开进行使用。AutoDL支持多种服务器配置,用户可以根据自己的需求租用相应配置的服务器,从而满足不同的计算需求。

Ollama简介

Ollama是一个功能强大的开源框架,旨在简化在Docker容器中部署和管理大型语言模型(LLM)的过程。本文将介绍Ollama的特点、优势以及如何在本地使用Ollama高效运行大型语言模型,为非专业读者提供清晰易懂的技术指南。

阅读全文 »

为什么要使用Gunicorn

Flask自带的web服务器可用于开发环境运行调试,不适合部署在生产环境,无法满足线上的性能要求。

当使用,以下命令启动Flask应用时:

1
app.run(host = '0.0.0.0',port=6000)

Flask框架会有一段

WARNING: This is a development server. Do not use it in a production deployment. Use a production WSGI server instead.

image-20240624182739132

Gunicorn是基于unix系统,被广泛应用的高性能的Python WSGI HTTP Server。用来解析HTTP请求的网关服务。它通常是在进行反向代理(如nginx),或者进行负载均衡(如AWS ELB)和一个web 应用(比如Django或者Flask)之间。

目前,gunicorn只能运行在Linux环境中,不支持windows平台。

阅读全文 »