Python RAG 噪声注入
作者:追风剑情 发布于:2026-4-28 15:57 分类:AI
噪声注入是 RAG 系统中的一种鲁棒性增强策略。它通过在检索到的上下文或用户查询中人为添加各种干扰信息,来训练或测试模型在真实混乱环境下的表现。
核心目的是让模型学会:
- 过滤无关信息
- 识别并忽略虚假内容
- 从杂乱文本中提取关键信息
- 容错处理拼写错误
示例
import random
import re
import jieba
from langchain_ollama import ChatOllama
from langchain_core.messages import HumanMessage
# ========== 1. 初始化本地 Ollama DeepSeek 模型 ==========
llm = ChatOllama(base_url="http://localhost:11434", model="deepseek-r1:7b")
# ========== 2. 定义各类噪声注入函数 ==========
def add_typo_noise(text, noise_rate=0.1):
"""
拼写噪声:随机替换、删除或交换字符
noise_rate: 噪声比例(针对每个字符的概率)
"""
if not text:
return text
chars = list(text)
for i in range(len(chars)):
if random.random() < noise_rate:
noise_type = random.choice(['replace', 'delete', 'swap'])
if noise_type == 'replace' and chars[i].isalpha():
# 替换为相邻拼音或随机相近字符(模拟错别字)
common_errors = {
'机': '积', '器': '气', '学': '穴', '习': '席',
'人': '入', '工': '功', '智': '志', '能': '农',
'深': '身', '度': '渡', '神': '申', '经': '径',
'网': '往', '络': '洛'
}
if chars[i] in common_errors:
chars[i] = common_errors[chars[i]]
elif noise_type == 'delete':
chars[i] = ''
elif noise_type == 'swap' and i < len(chars) - 1:
chars[i], chars[i+1] = chars[i+1], chars[i]
return ''.join(chars)
def add_irrelevant_sentence_noise(original_text):
"""
支持性噪声/语义噪声:插入不相关的句子
"""
irrelevant_sentences = [
"今天天气真好啊。",
"我昨天吃了一碗面条。",
"Python是一种编程语言。",
"这个例子展示了噪声注入技术。",
"明天的会议取消了。"
]
noise_sentence = random.choice(irrelevant_sentences)
# 随机位置插入
insert_pos = random.randint(0, len(original_text))
return original_text[:insert_pos] + noise_sentence + original_text[insert_pos:]
def add_special_char_noise(text):
"""
数据类型噪声:插入特殊字符、数字、URL等
"""
special_noises = [
" <!----> ",
" ",
" 123456 ",
" https://example.com ",
" 【广告】 ",
" *** ",
" {}[]() "
]
noise = random.choice(special_noises)
insert_pos = random.randint(0, len(text))
return text[:insert_pos] + noise + text[insert_pos:]
def add_incomplete_sentence_noise(original_text):
"""
非法句子噪声:插入不完整的片段
"""
incomplete_fragments = [
"因为所以而且",
"虽然但是然而",
"如果那么否则",
"一方面另一方面",
"首先然后最后"
]
fragment = random.choice(incomplete_fragments)
insert_pos = random.randint(0, len(original_text))
return original_text[:insert_pos] + fragment + original_text[insert_pos:]
def add_counterfact_noise(original_text):
"""
反事实噪声:插入明显错误的事实
"""
counterfact = random.choice([
"(注意:机器学习不需要任何数据就能学习。)",
"(补充:深度学习的发明时间是1960年。)",
"(提示:神经网络只有一层。)",
"(科普:人工智能比人类笨得多。)"
])
insert_pos = random.randint(0, len(original_text))
return original_text[:insert_pos] + counterfact + original_text[insert_pos:]
def add_all_noises(text):
"""
组合多种噪声:随机应用1-3种噪声
"""
noise_functions = [
lambda t: add_typo_noise(t, noise_rate=0.08),
add_irrelevant_sentence_noise,
add_special_char_noise,
add_incomplete_sentence_noise,
add_counterfact_noise
]
# 随机选择1-3种噪声
num_noises = random.randint(1, 3)
selected = random.sample(noise_functions, num_noises)
noisy_text = text
for noise_func in selected:
noisy_text = noise_func(noisy_text)
return noisy_text
# ========== 3. 原始中文测试文本 ==========
original_text = """
机器学习是人工智能的一个分支,它使计算机能够从数据中学习和改进。
深度学习是机器学习的一个子领域,使用多层神经网络来处理复杂任务。
"""
# 清理文本(去除多余换行和空格)
original_text = ' '.join(original_text.strip().split())
print("=" * 60)
print("【原始文本】")
print(original_text)
print("=" * 60)
# ========== 4. 生成噪声文本 ==========
noisy_text = add_all_noises(original_text)
print("\n【噪声注入后的文本】")
print(noisy_text)
print("=" * 60)
# ========== 5. 构建增强提示词 ==========
prompt = f"""你是一个智能问答助手。下面是一段包含噪声的文本(可能有拼写错误、不相关句子、特殊字符或错误信息)。
请完成以下任务:
1. 识别并忽略噪声内容
2. 提取出真正有价值的信息
3. 基于有效信息,对"机器学习"和"深度学习"进行清晰、准确的解释
注意:只输出清理后的正确答案,不要输出你的分析过程。
带噪声的文本:
{noisy_text}
请输出清理后的正确解释:"""
# ========== 6. 调用本地 LLM 生成增强文本 ==========
print("\n【正在调用本地 DeepSeek 处理噪声文本...】")
try:
response = llm.invoke([HumanMessage(content=prompt)])
print("\n【模型输出(清理后)】")
print(response.content)
print("=" * 60)
except Exception as e:
print(f"LLM 调用失败: {e}")
# ========== 7. 可选:对比实验(使用原始文本调用模型) ==========
print("\n【对比实验:直接使用原始文本(无噪声)】")
prompt_clean = f"请解释什么是机器学习和深度学习:\n{original_text}"
try:
response_clean = llm.invoke([HumanMessage(content=prompt_clean)])
print(response_clean.content)
print("=" * 60)
except Exception as e:
print(f"LLM 调用失败: {e}")
标签: AI
日历
最新文章
随机文章
热门文章
分类
存档
- 2026年4月(7)
- 2026年3月(15)
- 2026年2月(3)
- 2026年1月(6)
- 2025年12月(1)
- 2025年11月(1)
- 2025年9月(3)
- 2025年7月(4)
- 2025年6月(5)
- 2025年5月(1)
- 2025年4月(5)
- 2025年3月(4)
- 2025年2月(3)
- 2025年1月(1)
- 2024年12月(5)
- 2024年11月(5)
- 2024年10月(5)
- 2024年9月(3)
- 2024年8月(3)
- 2024年7月(11)
- 2024年6月(3)
- 2024年5月(9)
- 2024年4月(10)
- 2024年3月(11)
- 2024年2月(24)
- 2024年1月(12)
- 2023年12月(3)
- 2023年11月(9)
- 2023年10月(7)
- 2023年9月(2)
- 2023年8月(7)
- 2023年7月(9)
- 2023年6月(6)
- 2023年5月(7)
- 2023年4月(11)
- 2023年3月(6)
- 2023年2月(11)
- 2023年1月(8)
- 2022年12月(2)
- 2022年11月(4)
- 2022年10月(10)
- 2022年9月(2)
- 2022年8月(13)
- 2022年7月(7)
- 2022年6月(11)
- 2022年5月(18)
- 2022年4月(29)
- 2022年3月(5)
- 2022年2月(6)
- 2022年1月(8)
- 2021年12月(5)
- 2021年11月(3)
- 2021年10月(4)
- 2021年9月(9)
- 2021年8月(14)
- 2021年7月(8)
- 2021年6月(5)
- 2021年5月(2)
- 2021年4月(3)
- 2021年3月(7)
- 2021年2月(2)
- 2021年1月(8)
- 2020年12月(7)
- 2020年11月(2)
- 2020年10月(6)
- 2020年9月(9)
- 2020年8月(10)
- 2020年7月(9)
- 2020年6月(18)
- 2020年5月(4)
- 2020年4月(25)
- 2020年3月(38)
- 2020年1月(21)
- 2019年12月(13)
- 2019年11月(29)
- 2019年10月(44)
- 2019年9月(17)
- 2019年8月(18)
- 2019年7月(25)
- 2019年6月(25)
- 2019年5月(17)
- 2019年4月(10)
- 2019年3月(36)
- 2019年2月(35)
- 2019年1月(28)
- 2018年12月(30)
- 2018年11月(22)
- 2018年10月(4)
- 2018年9月(7)
- 2018年8月(13)
- 2018年7月(13)
- 2018年6月(6)
- 2018年5月(5)
- 2018年4月(13)
- 2018年3月(5)
- 2018年2月(3)
- 2018年1月(8)
- 2017年12月(35)
- 2017年11月(17)
- 2017年10月(16)
- 2017年9月(17)
- 2017年8月(20)
- 2017年7月(34)
- 2017年6月(17)
- 2017年5月(15)
- 2017年4月(32)
- 2017年3月(8)
- 2017年2月(2)
- 2017年1月(5)
- 2016年12月(14)
- 2016年11月(26)
- 2016年10月(12)
- 2016年9月(25)
- 2016年8月(32)
- 2016年7月(14)
- 2016年6月(21)
- 2016年5月(17)
- 2016年4月(13)
- 2016年3月(8)
- 2016年2月(8)
- 2016年1月(18)
- 2015年12月(13)
- 2015年11月(15)
- 2015年10月(12)
- 2015年9月(18)
- 2015年8月(21)
- 2015年7月(35)
- 2015年6月(13)
- 2015年5月(9)
- 2015年4月(4)
- 2015年3月(5)
- 2015年2月(4)
- 2015年1月(13)
- 2014年12月(7)
- 2014年11月(5)
- 2014年10月(4)
- 2014年9月(8)
- 2014年8月(16)
- 2014年7月(26)
- 2014年6月(22)
- 2014年5月(28)
- 2014年4月(15)
友情链接
- Unity官网
- Unity圣典
- Unity在线手册
- Unity中文手册(圣典)
- Unity官方中文论坛
- Unity游戏蛮牛用户文档
- Unity下载存档
- Unity引擎源码下载
- Unity服务
- Unity Ads
- wiki.unity3d
- Visual Studio Code官网
- SenseAR开发文档
- MSDN
- C# 参考
- C# 编程指南
- .NET Framework类库
- .NET 文档
- .NET 开发
- WPF官方文档
- uLua
- xLua
- SharpZipLib
- Protobuf-net
- Protobuf.js
- OpenSSL
- OPEN CASCADE
- JSON
- MessagePack
- C在线工具
- 游戏蛮牛
- GreenVPN
- 聚合数据
- 热云
- 融云
- 腾讯云
- 腾讯开放平台
- 腾讯游戏服务
- 腾讯游戏开发者平台
- 腾讯课堂
- 微信开放平台
- 腾讯实时音视频
- 腾讯即时通信IM
- 微信公众平台技术文档
- 白鹭引擎官网
- 白鹭引擎开放平台
- 白鹭引擎开发文档
- FairyGUI编辑器
- PureMVC-TypeScript
- 讯飞开放平台
- 亲加通讯云
- Cygwin
- Mono开发者联盟
- Scut游戏服务器引擎
- KBEngine游戏服务器引擎
- Photon游戏服务器引擎
- 码云
- SharpSvn
- 腾讯bugly
- 4399原创平台
- 开源中国
- Firebase
- Firebase-Admob-Unity
- google-services-unity
- Firebase SDK for Unity
- Google-Firebase-SDK
- AppsFlyer SDK
- android-repository
- CQASO
- Facebook开发者平台
- gradle下载
- GradleBuildTool下载
- Android Developers
- Google中国开发者
- AndroidDevTools
- Android社区
- Android开发工具
- Google Play Games Services
- Google商店
- Google APIs for Android
- 金钱豹VPN
- TouchSense SDK
- MakeHuman
- Online RSA Key Converter
- Windows UWP应用
- Visual Studio For Unity
- Open CASCADE Technology
- 慕课网
- 阿里云服务器ECS
- 在线免费文字转语音系统
- AI Studio
- 网云穿
- 百度网盘开放平台
- 迅捷画图
- 菜鸟工具
- [CSDN] 程序员研修院
- 华为人脸识别
- 百度AR导航导览SDK
- 海康威视官网
- 海康开放平台
- 海康SDK下载
- git download
- Open CASCADE
- CascadeStudio
- OpenClaw中文社区
- three.js manual
- SVG官方文档
交流QQ群
-
Flash游戏设计: 86184192
Unity游戏设计: 171855449
游戏设计订阅号







