Python 下载BERT模型并保存到本地

作者:追风剑情 发布于:2026-6-24 16:21 分类:AI

示例:

import os
# 设置Hugging Face镜像源
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

# 然后是你的原有下载代码
from transformers import AutoTokenizer, AutoModel

model_name = "bert-base-uncased"
print("正在从镜像站下载模型...")
model = AutoModel.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name, clean_up_tokenization_spaces=True)
print("下载完成!")

local_path = "./my_bert_model"
tokenizer.save_pretrained(local_path)
model.save_pretrained(local_path)
print(f"模型已成功保存到本地路径: {local_path}")

运行测试
11111.png

下载到本地的文件。
2222.png

Hugging Face 模型仓库
文件名 说明
config.json 模型的配置文件,包含模型架构的超参数(如层数、注意力头数、隐层维度、词汇表大小等)。加载模型时必须使用。
model.safetensors 模型权重文件(安全的张量格式)。存储了所有预训练好的参数。这是最大的文件,也是模型的核心。
special_tokens_map.json 定义了特殊 token(如 [UNK]、[CLS]、[SEP]、[PAD]、[MASK])及其对应的 token ID。分词器需要它来正确处理这些特殊标记。
tokenizer.json 分词器的主配置,包含完整的词表、合并规则(BPE)、分词算法等。这是分词器的核心文件。
tokenizer_config.json 分词器的额外配置,包括填充方向、截断策略、最大长度、是否清理空格等。影响分词器的行为。
vocab.txt 词表文件(纯文本格式),一行一个 token,按 ID 顺序排列。通常用于 BERT 的 WordPiece 分词。但现代分词器更多依赖 tokenizer.json。

标签: AI

Powered by emlog  蜀ICP备18021003号-1   sitemap

川公网安备 51019002001593号