open-embodied 7ae440bc3f gpp		10 mēneši atpakaļ
..
README.md	7ae440bc3f gpp	10 mēneši atpakaļ
multi_model_example.py	7ae440bc3f gpp	10 mēneši atpakaļ
sample_data.json	7ae440bc3f gpp	10 mēneši atpakaļ

📚 示例数据和使用案例

本目录包含了神机项目的示例数据和使用案例，帮助用户快速了解项目功能。

📁 文件说明

sample_data.json

包含3个高质量的网络安全训练样本：

SQL注入攻击原理和防护
Python端口扫描器编写
XSS攻击检测和防护

每个样本都采用标准的对话格式，包含神机的身份设定和专业回答。

🚀 快速测试

1. 使用示例数据进行训练

# 复制示例数据到训练目录
cp examples/sample_data.json data/processed/

# 开始训练
./start_training.sh --mode train

2. 测试训练效果

# 启动交互模式
./start_training.sh --mode interactive

# 测试问题
# "什么是SQL注入？"
# "如何编写端口扫描器？"
# "XSS攻击如何防护？"

📝 自定义数据格式

对话格式（推荐）

[
  {
    "text": "<|im_start|>system\n你是神机，由云霖网络安全实验室训练的网络安全大模型。<|im_end|>\n<|im_start|>user\n用户问题<|im_end|>\n<|im_start|>assistant\n神机的回答<|im_end|>"
  }
]

指令格式

[
  {
    "instruction": "用户问题",
    "input": "",
    "output": "期望回答",
    "category": "security"
  }
]

🎯 数据质量建议

高质量样本特征

明确的身份设定：每个对话都包含神机身份
专业的内容：网络安全领域的专业知识
结构化回答：清晰的格式和逻辑
实用性：包含具体的代码示例和操作步骤
安全性：强调合法使用和安全注意事项

避免的内容

恶意攻击代码
非法活动指导
不准确的技术信息
过于简单的问答

📊 数据扩展

添加更多样本

# 创建新的训练数据文件
cp examples/sample_data.json data/processed/my_custom_data.json

# 编辑文件添加更多样本
vim data/processed/my_custom_data.json

# 训练时会自动加载所有数据
./start_training.sh --mode train

数据验证

# 检查数据格式
python -c "import json; data=json.load(open('examples/sample_data.json')); print(f'加载了 {len(data)} 个样本')"

# 验证数据质量
python tests/test_runner.py --test data_loader

🔍 最佳实践

渐进式训练：从少量高质量数据开始
多样性：涵盖不同的安全主题和场景
一致性：保持身份设定和回答风格一致
验证：训练后测试模型回答质量
迭代：根据效果调整和优化数据

📞 技术支持

如果在使用示例数据时遇到问题：

检查数据格式是否正确
运行环境检查：python check_environment.py
查看训练日志：tail -f logs/training_*.log
使用测试框架：python tests/test_runner.py --test all

开始使用示例数据，快速体验神机的强大能力！ 🚀

README.md

📚 示例数据和使用案例

📁 文件说明

sample_data.json

🚀 快速测试

1. 使用示例数据进行训练

2. 测试训练效果

📝 自定义数据格式

对话格式（推荐）

指令格式

🎯 数据质量建议

高质量样本特征

避免的内容

📊 数据扩展

添加更多样本

数据验证

🔍 最佳实践

📞 技术支持