open-embodied 7ae440bc3f gpp 10 mēneši atpakaļ
..
README.md 7ae440bc3f gpp 10 mēneši atpakaļ
multi_model_example.py 7ae440bc3f gpp 10 mēneši atpakaļ
sample_data.json 7ae440bc3f gpp 10 mēneši atpakaļ

README.md

📚 示例数据和使用案例

本目录包含了神机项目的示例数据和使用案例,帮助用户快速了解项目功能。

📁 文件说明

sample_data.json

包含3个高质量的网络安全训练样本:

  • SQL注入攻击原理和防护
  • Python端口扫描器编写
  • XSS攻击检测和防护

每个样本都采用标准的对话格式,包含神机的身份设定和专业回答。

🚀 快速测试

1. 使用示例数据进行训练

# 复制示例数据到训练目录
cp examples/sample_data.json data/processed/

# 开始训练
./start_training.sh --mode train

2. 测试训练效果

# 启动交互模式
./start_training.sh --mode interactive

# 测试问题
# "什么是SQL注入?"
# "如何编写端口扫描器?"
# "XSS攻击如何防护?"

📝 自定义数据格式

对话格式(推荐)

[
  {
    "text": "<|im_start|>system\n你是神机,由云霖网络安全实验室训练的网络安全大模型。<|im_end|>\n<|im_start|>user\n用户问题<|im_end|>\n<|im_start|>assistant\n神机的回答<|im_end|>"
  }
]

指令格式

[
  {
    "instruction": "用户问题",
    "input": "",
    "output": "期望回答",
    "category": "security"
  }
]

🎯 数据质量建议

高质量样本特征

  1. 明确的身份设定:每个对话都包含神机身份
  2. 专业的内容:网络安全领域的专业知识
  3. 结构化回答:清晰的格式和逻辑
  4. 实用性:包含具体的代码示例和操作步骤
  5. 安全性:强调合法使用和安全注意事项

避免的内容

  • 恶意攻击代码
  • 非法活动指导
  • 不准确的技术信息
  • 过于简单的问答

📊 数据扩展

添加更多样本

# 创建新的训练数据文件
cp examples/sample_data.json data/processed/my_custom_data.json

# 编辑文件添加更多样本
vim data/processed/my_custom_data.json

# 训练时会自动加载所有数据
./start_training.sh --mode train

数据验证

# 检查数据格式
python -c "import json; data=json.load(open('examples/sample_data.json')); print(f'加载了 {len(data)} 个样本')"

# 验证数据质量
python tests/test_runner.py --test data_loader

🔍 最佳实践

  1. 渐进式训练:从少量高质量数据开始
  2. 多样性:涵盖不同的安全主题和场景
  3. 一致性:保持身份设定和回答风格一致
  4. 验证:训练后测试模型回答质量
  5. 迭代:根据效果调整和优化数据

📞 技术支持

如果在使用示例数据时遇到问题:

  1. 检查数据格式是否正确
  2. 运行环境检查:python check_environment.py
  3. 查看训练日志:tail -f logs/training_*.log
  4. 使用测试框架:python tests/test_runner.py --test all

开始使用示例数据,快速体验神机的强大能力! 🚀