Python 下载BERT模型并保存到本地

作者：追风剑情发布于：2026-6-24 16:21 分类：AI

示例：

import os
# 设置Hugging Face镜像源
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

# 然后是你的原有下载代码
from transformers import AutoTokenizer, AutoModel

model_name = "bert-base-uncased"
print("正在从镜像站下载模型...")
model = AutoModel.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name, clean_up_tokenization_spaces=True)
print("下载完成！")

local_path = "./my_bert_model"
tokenizer.save_pretrained(local_path)
model.save_pretrained(local_path)
print(f"模型已成功保存到本地路径: {local_path}")

运行测试

下载到本地的文件。

Hugging Face 模型仓库
文件名	说明
config.json	模型的配置文件，包含模型架构的超参数（如层数、注意力头数、隐层维度、词汇表大小等）。加载模型时必须使用。
model.safetensors	模型权重文件（安全的张量格式）。存储了所有预训练好的参数。这是最大的文件，也是模型的核心。
special_tokens_map.json	定义了特殊 token（如 [UNK]、[CLS]、[SEP]、[PAD]、[MASK]）及其对应的 token ID。分词器需要它来正确处理这些特殊标记。
tokenizer.json	分词器的主配置，包含完整的词表、合并规则（BPE）、分词算法等。这是分词器的核心文件。
tokenizer_config.json	分词器的额外配置，包括填充方向、截断策略、最大长度、是否清理空格等。影响分词器的行为。
vocab.txt	词表文件（纯文本格式），一行一个 token，按 ID 顺序排列。通常用于 BERT 的 WordPiece 分词。但现代分词器更多依赖 tokenizer.json。