Omini-kontext的Lora配置太庞大了
target_modules = "(.*x_embedder|" # 输入嵌入层 ".*transformer_blocks\\.[0-9]+\\.(norm|norm1)\\.linear|" # 所有Norm层的linear ".*transformer_blocks\\.[0-9]+\\.attn\\.(to_k|to_q|to_v|to_add_out)|" # Attention的QKV ".*transformer_blocks\\.[0-9]+\\.attn\\.to_out\\.0|" # Attention输出投影 ".*single_transformer_blocks\\.[0-9]+\\.attn\\.to_out|" # 单块Attention输出 ".*single_transformer_blocks\\.[0-9]+\\.(proj_mlp|proj_out)|" # 单块MLP投影 ".*(?<!single_)transformer_blocks\\.[0-9]+\\.ff\\.net\\.2|" # FFN第二层 ".*(?<!single_)transformer_blocks\\.[0-9]+\\.ff\\.net\\.0\\.proj|" # FFN第一层投影 ".*(?<!single_)transformer_blocks\\.[0-9]+\\.norm1_context\\.linear|" # 上下文Norm ".*(?<!single_)transformer_blocks\\.[0-9]+\\.ff_context\\.net\\.0\\.proj|" # 上下文FFN投影 ".*(?<!single_)transformer_blocks\\.[0-9]+\\.ff_context\\.net\\.2|" # 上下文FFN第二层 ".*(?<!single_)transformer_blocks\\.[0-9]+\\.attn\\.(to_add_out|add_k_proj|add_q_proj|add_v_proj))" # 额外Attention这个配置覆盖了:
✅x_embedder(输入嵌入)
✅所有norm层的linear(太多了!)
✅所有attention的QKV+输出
✅所有FFN层的投影
✅所有context相关的层
✅所有single_transformer_blocks
总计可能添加了数百个LoRA层!