带你快速入门HuggingFace！-平芜编程栈

1 Hugging Face是什么？

如果你正在学习机器学习、大模型相关的内容，那么Hugging Face是你一定不要错过的社区。其实Hugging Face和Github挺相似的，相当于是机器学习界的github。

Hugging Face一开始只是一家纽约的聊天机器人服务商，本来是打算启动做聊天机器人的，在github上开源了Transformer库，结果有心栽花花不成，无心栽柳柳成荫，聊天机器人没做出个眉目，倒是transformer库在社区里迅速火爆起来。

下面我们来了解一下Hugging Face主要提供的服务。

2 预训练模型

Hugging Face提供了大量的预训练模型，帮助到哪怕是小白也可以快速上手大佬们训练出来的模型。

一开始主要涉及到的领域主要是NLP领域相关的任务，比如文本分类、情感分析、对话问答以及命名实体识别等等。

目前平台已经进一步壮大，只要你能想得到的厉害的模型，在上面基本上都可以找到。

Hugging Face大量的预训练模型使得业界的研究者们不用再去重复造轮子，可以更加关注自己的问题，模型的开源反过来进一步推动了平台的发展。

在Hugging Face上，Transformer库是其中最核心的项目，Transformer库提供了十分简洁的API接口，使得模型加载、使用和训练变得非常简单。

2.1 Transformer的安装

它的安装非常简单，我们在自己的虚拟环境中直接安装即可：

pip install transformers

2.2 使用Transformer库

假设我们的任务比较简单，一般可以直接调用API就可以完成。比如实现一个翻译任务：

from transformers import pipeline en_fr_translator = pipeline("translation_en_to_fr") print(en_fr_translator("How old are you?"))

将以上代码执行，将会得到翻译：

[{'translation_text': ' quel âge êtes-vous?'}]

或者实现文本分类任务：

from transformers import pipeline classifier = pipeline("sentiment-analysis") result = classifier("I love using HuggingFace transformers!") print(result)

最终我们会得到结果：

[{'label': 'POSITIVE', 'score': 0.9998}]

表明这是一句积极的话。

或者实现文本生成的任务：

from transformers import pipeline generator = pipeline("text-generation", model="gpt2") result = generator("Once upon a time,") print(result[0]['generated_text'])

看的出来，其实还是有些在自说自话。

除了Transformer之外，我们也可以使用其他的模型，比如BERT：

from transformers import pipeline unmasker = pipeline('fill-mask', model='bert-base-chinese') unmasker("中国的首都是[MASK].")

运行结果：

因此说白了Hugging Face其实就是将一堆牛叉的模型库封装好，然后给你提供一份特定的使用说明书，你直接去用就行了，比如gpt、kimi、Qwen这些大模型我们没有必要去写代码，也没有必要去重新训练(也不是你我能训练得了的)，直接按照说明书直接用就ok。

详细使用方法：

https://huggingface.co/docs/transformers/v4.21.0/en/main_classes/pipelines

我们通过实际的界面来看：

比如在以上Hugging face的界面给出了一堆大模型，就拿deepseek-ai/DeepSeek-OCR-2来说吧，我们点击去看：

好家伙，27W下载。

下面给出了环境配置和具体使用代码：

以上代码是使用了DeepSeek-OCR-2模型进行OCR（光学字符识别）任务，并将结果转换为markdown格式。

因此想体验哪个大模型，代码都不用你写了，别人都给你写好了。

3 数据集

Hugging Face提供了大量的数据集，包括音视频、计算机视觉、自然语言处理领域的任务。

首先需要安装好Datasets库，也是一行命令搞定：

pip install datasets

我们来看看数据集的界面：

总共81万个数据集。

3.1 数据集概览

一般在下载数据集之前，我们需要检查一下数据集信息，比如Rotten Tomatoes 电影评论数据集：

from datasets import load_dataset_builder ds_builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes") ds_builder.info.description ds_builder.info.features

最终得到数据集的关键信息：

Rotten Tomatoes movie review dataset for binary sentiment classification...

任务：二元情感分类（positive/negative）
规模：10,662条评论（5,331条正面 + 5,331条负面）
来源：Rotten Tomatoes 电影评论
用途：常用于情感分析基准测试

3.2 数据集加载

此时我们对数据集满意的话，就可以使用load_dataset()加载它。

from datasets import load_dataset dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes", split="train")

3.3 数据集划分

使用函数 get_dataset_split_names() 可以列出数据集的分划名称。

from datasets import get_dataset_split_names get_dataset_split_names("cornell-movie-review-data/rotten_tomatoes")

最终结果为['train', 'validation', 'test']

我们也可以只操作Train:

from datasets import load_dataset dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes", split="train")

得到结果：

Dataset({ features: ['text', 'label'], num_rows: 8530 })

返回所有：

from datasets import load_dataset dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes")

得到结果：

DatasetDict({ train: Dataset({ features: ['text', 'label'], num_rows: 8530 }) validation: Dataset({ features: ['text', 'label'], num_rows: 1066 }) test: Dataset({ features: ['text', 'label'], num_rows: 1066 }) })

详细使用方法参考中文网站：

https://hugging-face.cn/docs/datasets/index

除此之外，Hugging Face还提供了Doc界面，包括一些参考文档，以及社区文章，类似于大家发发朋友圈：

一篇文章可能没有办法详细的说明Hugging Face的使用说明，但是作为快速入门，使用Model设Datasets已经够了，剩下的大家可以多多探索哦，用的越多越熟悉。

Hugging Face作为目前机器学习领域最大的开源平台，大家没事多逛逛，还是很有好处的。

欢迎大家关注我的gzh：阿龙AI日记