NextRec/tutorials/run_all_matching_models.py at main · zerolovesea/NextRec · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
"""
批量运行所有召回模型示例

文件说明:
    本示例演示如何批量训练和测试 NextRec 框架支持的所有召回(匹配)模型。
    通过统一的训练接口和合成数据,可以快速验证各个召回模型的功能和性能。

主要功能:
    - 生成合成的召回任务数据
    - 批量训练多个召回模型(DSSM、YoutubeDNN、MIND)
    - 统一的模型训练和评估流程
    - 收集训练结果和错误信息

支持的模型:
    1. DSSM (Deep Structured Semantic Model): 双塔模型,使用余弦相似度
    2. YoutubeDNN: YouTube 推荐系统使用的深度召回模型,支持负采样
    3. MIND (Multi-Interest Network with Dynamic Routing): 多兴趣网络,使用胶囊网络建模用户多样化兴趣

使用方法:
    直接运行此脚本:
        python tutorials/run_all_matching_models.py

数据要求:
    使用合成数据,不需要外部数据文件。脚本会自动生成:
        - 用户特征(稠密、稀疏、序列)
        - 物品特征(稠密、稀疏、序列)
        - 用户-物品交互标签

输出:
    - 各模型的训练日志
    - 评估指标
    - 训练成功/失败统计
    - 失败模型列表

作者: Yang Zhou, zyaztec@gmail.com
创建日期: 2025-12-06
最后更新: 2026-01-28
"""

from nextrec.models.matching.dssm import DSSM
from nextrec.models.matching.youtube_dnn import YoutubeDNN
from nextrec.models.matching.mind import MIND

from nextrec.utils.model import compute_pair_scores
from nextrec.utils.data import generate_match_data


def train_model(
    model_class,
    model_name,
    user_dense_features,
    user_sparse_features,
    user_sequence_features,
    item_dense_features,
    item_sparse_features,
    item_sequence_features,
    train_df,
    valid_df,
    device="cpu",
    **kwargs,
):
    """
    训练单个召回模型

    参数:
        model_class: 模型类
        model_name: 模型名称(用于日志输出)
        user_dense_features: 用户稠密特征列表
        user_sparse_features: 用户稀疏特征列表
        user_sequence_features: 用户序列特征列表
        item_dense_features: 物品稠密特征列表
        item_sparse_features: 物品稀疏特征列表
        item_sequence_features: 物品序列特征列表
        train_df: 训练数据
        valid_df: 验证数据
        device: 设备(cpu/cuda)
        **kwargs: 模型特定参数

    返回:
        success: 是否训练成功
        metrics: 评估指标字典
    """
    print("=" * 80)
    print(f"Training {model_name}")
    print("=" * 80)

    try:
        loss = kwargs.pop("loss")

        # ==============================================================================
        # 1. 创建模型
        # ==============================================================================

        model = model_class(
            user_dense_features=user_dense_features,
            user_sparse_features=user_sparse_features,
            user_sequence_features=user_sequence_features,
            item_dense_features=item_dense_features,
            item_sparse_features=item_sparse_features,
            item_sequence_features=item_sequence_features,
            device=device,
            session_id=f"match_{model_name.lower()}_tutorial",
            **kwargs,
        )

        # ==============================================================================
        # 2. 编译模型
        # ==============================================================================

        model.compile(
            optimizer="adam",
            optimizer_params={"lr": 1e-3, "weight_decay": 1e-5},
            loss=loss,
        )

        # ==============================================================================
        # 3. 训练模型
        # ==============================================================================

        model.fit(
            train_data=train_df,
            valid_data=valid_df,
            epochs=1,  # 仅训练1轮用于快速验证
            batch_size=512,
            shuffle=True,
            use_tensorboard=False,  # 不使用 TensorBoard
            group_id="user_id",
        )

        # ==============================================================================
        # 4. 评估模型
        # ==============================================================================

        metrics = model.evaluate(
            valid_df,
            batch_size=512,
            group_id="user_id",
        )

        # ==============================================================================
        # 5. 计算样本分数
        # ==============================================================================

        sample_scores = compute_pair_scores(model, valid_df.head(2048), batch_size=512)
        print(f"{model_name} sample scores: {sample_scores[:5]}")

        print(f"{model_name} completed successfully")
        return True, metrics

    except Exception as e:
        print(f"{model_name} failed with error: {str(e)}")
        return False, None


def main():
    """
    主函数: 批量运行所有召回模型
    """
    print("=" * 80)
    print("Training all supported match models with synthetic data")
    print("=" * 80)

    device = "cpu"

    # ==============================================================================
    # 1. 生成合成数据
    # ==============================================================================

    (
        df,
        user_dense_features,
        user_sparse_features,
        user_sequence_features,
        item_dense_features,
        item_sparse_features,
        item_sequence_features,
    ) = generate_match_data(
        n_samples=10000,  # 样本数量
        user_vocab_size=1000,  # 用户词汇表大小
        item_vocab_size=5000,  # 物品词汇表大小
        category_vocab_size=100,  # 类别词汇表大小
        brand_vocab_size=200,  # 品牌词汇表大小
        city_vocab_size=100,  # 城市词汇表大小
        user_feature_vocab_size=50,  # 用户特征词汇表大小
        item_feature_vocab_size=50,  # 物品特征词汇表大小
        sequence_max_len=50,  # 序列最大长度
        user_embedding_dim=32,  # 用户 embedding 维度
        item_embedding_dim=32,  # 物品 embedding 维度
        seed=42,  # 随机种子
    )

    # ==============================================================================
    # 2. 划分训练集和验证集
    # ==============================================================================

    split_idx = int(len(df) * 0.8)
    train_df = df.iloc[:split_idx].reset_index(drop=True)
    valid_df = df.iloc[split_idx:].reset_index(drop=True)
    print(f"Train size: {len(train_df)}, Valid size: {len(valid_df)}")

    results = {}

    # ==============================================================================
    # 3. 定义要训练的模型列表
    # ==============================================================================

    models_to_train = [
        (
            DSSM,
            "DSSM",
            {
                "user_mlp_params": {  # 用户塔 MLP 参数
                    "hidden_dims": [256, 128, 64],
                    "activation": "relu",
                    "dropout": 0.2,
                },
                "item_mlp_params": {  # 物品塔 MLP 参数
                    "hidden_dims": [256, 128, 64],
                    "activation": "relu",
                    "dropout": 0.2,
                },
                "embedding_dim": 64,  # 用户和物品向量维度
                "similarity_metric": "cosine",  # 相似度度量:余弦相似度
                "training_mode": "pointwise",  # 训练模式:pointwise
                "loss": "bce",
            },
        ),
        (
            YoutubeDNN,
            "YoutubeDNN",
            {
                "user_mlp_params": {
                    "hidden_dims": [256, 128, 64],
                    "activation": "relu",
                    "dropout": 0.2,
                },
                "item_mlp_params": {
                    "hidden_dims": [256, 128, 64],
                    "activation": "relu",
                    "dropout": 0.2,
                },
                "embedding_dim": 64,
                "training_mode": "pointwise",  # 训练模式:pointwise
                "loss": "bce",
            },
        ),
        (
            MIND,
            "MIND",
            {
                "item_mlp_params": {
                    "hidden_dims": [256, 128],
                    "activation": "relu",
                    "dropout": 0.2,
                },
                "embedding_dim": 64,
                "num_interests": 4,  # 用户兴趣数量
                "capsule_bilinear_type": 2,  # 胶囊网络双线性类型
                "routing_times": 3,  # 动态路由迭代次数
                "training_mode": "pointwise",
                "similarity_metric": "dot",  # 相似度度量:内积
                "loss": "bce",
            },
        ),
    ]

    # ==============================================================================
    # 4. 批量训练模型
    # ==============================================================================

    successful = 0
    failed = 0
    failed_models = []

    for model_class, model_name, extra_params in models_to_train:
        success, metrics = train_model(
            model_class=model_class,
            model_name=model_name,
            user_dense_features=user_dense_features,
            user_sparse_features=user_sparse_features,
            user_sequence_features=user_sequence_features,
            item_dense_features=item_dense_features,
            item_sparse_features=item_sparse_features,
            item_sequence_features=item_sequence_features,
            train_df=train_df,
            valid_df=valid_df,
            device=device,
            **extra_params,
        )

        if success:
            successful += 1
            results[model_name] = metrics
        else:
            failed += 1
            failed_models.append(model_name)

    # ==============================================================================
    # 5. 打印训练总结
    # ==============================================================================

    print("Test Summary")
    print(f"Total models: {len(models_to_train)}")
    print(f"Successful counts: {successful}")
    print(f"Failed counts: {failed}, Models: {failed_models}")


if __name__ == "__main__":
    main()