2025-7-6

今天的任务是什么

话术:

1
2
3
4
5
6
7
8

👏欢迎参加Datawhale夏令营,可以看一下群公告哦,【零基础】跑通一站式baseline! 我们的学习已经开始了
Step1:30分钟,零基础跑通Baseline获得结果
【baseline链接】:https://www.datawhale.cn/activity/324/learn/191/4314/6/5

Step2:完成打卡,打卡就在教程右侧哦

🎁Tips:打卡完在群公告处有抽奖噢,先到先得~

任务地址:https://www.datawhale.cn/activity/324/learn/191/4314/6/5

baseline出来啦!大家来测试一下, 跑完的助教们接下龙说一下跑了多久+多少分+想法/反馈(专业助教们一定要跑哈)

带货视频评论洞察baseline:https://datawhaler.feishu.cn/wiki/N4cLwvLJxiArbVkeyfAcBjOmnce

宝子们!特大好消息来啦~🎉 今晚9点咱们要开启文字结营啦!从最开始的学习打卡,到攻克一个个知识难关,大家这段时间的努力真的超棒!不管是熬夜写笔记,还是反复抠知识点,每一份付出都闪闪发光~等晚上一起唠唠学习趣事,分享收获,不见不散!

@所有人 夏令营活动上线啦,各个赛道助教可以报名自己负责的方向哦~所有助教必须报名哈,否则无法看到教程和打卡

大模型技术https://www.datawhale.cn/activity/324?sourceId=1499 机器学习https://www.datawhale.cn/activity/323 MCP Serverhttps://www.datawhale.cn/activity/322

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
各位同学大家好!欢迎大家参加2025 Datawhale AI 夏令营- 大模型技术方向
请大家先改下群备注,姓名-学校/在职-专业/岗位
-----------------------
【开营预热】强烈推荐【零基础跑通baseline】并参与抽奖!
https://www.datawhale.cn/activity/324/learn/191/4314/6/5

大家跑通baseline后记得在赛事网页提交获得分数,教程右侧进行打卡抽奖哦

【抽奖链接】
https://exn8g66dnwu.feishu.cn/share/base/form/shrcnwWgdu6EheUUd2sY0seC7hf
-------------------------
【开营仪式】人满200人之后我们在本群进行开营仪式哦
-------------------------
【本次学习完全免费,有任何人加你们好友说要付费/推荐付费课程,都是诈骗。如有遇到,欢迎举报信息给官方企微号:小鲸鱼@Datawhale

一、赛事背景

在电商直播爆发式增长的数字化浪潮下,短视频平台积累了海量带货视频及用户互动数据。这些数据不仅是消费者对商品体验的直接反馈,更蕴含着驱动商业决策的深层价值。在此背景下,基于带货视频评论的用户洞察分析,已成为品牌优化选品策略、评估网红带货效能的关键突破口。

带货视频评论用户洞察的核心逻辑,在于对视频内容与评论数据的联合深度挖掘。通过智能识别视频中推广的核心商品,结合评论区用户的情感表达与观点聚合,企业能够精准捕捉消费者对商品的真实态度与需求痛点。这种分析方式不仅能揭示用户对商品功能、价格、服务的多维评价,还可通过情感倾向聚类,构建消费者偏好画像,为选品策略优化和网红合作评估提供数据支撑。

本挑战赛聚焦"商品识别-情感分析-聚类洞察"的完整链条:参赛者需先基于视频内容建立商品关联关系,进而从非结构化评论中提取情感倾向,最终通过聚类总结形成结构化洞察。这一研究路径将碎片化的用户评论转化为可量化分析的商业智能,既可帮助品牌穿透数据迷雾把握消费心理,又能科学评估网红的内容种草效果与带货转化潜力,实现从内容营销到消费决策的全链路价值提升。在直播电商竞争白热化的当下,此类分析能力正成为企业构建差异化竞争优势的核心武器。

二、赛事任务

参赛者需基于提供的带货视频文本及评论文本数据,完成以下三阶段分析任务:

1)【商品识别】精准识别推广商品;

2)【情感分析】对评论文本进行多维度情感分析,涵盖维度见数据说明;

3)【评论聚类】按商品对归属指定维度的评论进行聚类,并提炼类簇总结词。

https://www.datawhale.cn/activity/324/learn/191/4314/6/5

环境搭建:

Step2:启动魔搭Notebook!

新用户需要先注册魔搭

选择【方式一:CPU】、启动!

git lfs install git clone https://www.modelscope.cn/datasets/Datawhale/AISumerCamp_video_comments_insights_baseline.git

一键运行:

恭喜!你已超越了80%新手、成功突破了**「用AI完成用户洞察」**的‘从0到1’:

✅ 从视频描述中 抓出🔍商品文本分类

✅ 自动标记用户情绪😄(多维度情感分析

✅ 把相似评论打包🗂️ 成组(聚类

稍等片刻后,刷新即可看到分数!分数应该在 176分左右~

非常欢迎大家参加本期夏令营学习助教,大家有任何问题都可以提出来~千万不要害羞

我们真诚的希望可以做到For the learner 和学习者一起学习,而这都依赖于大家的出色表现,给大家的福利加码!

①助教只要表现优秀,都可以获得积分,积分可兑换夏令营专属文创礼品(后续会公布) ②积分到一定门槛就可以直接获得【实习证明】(基本2次优秀助教就可以满足!)

【优秀助教标准】 硬指标:群打卡率40%以上 软指标:认真负责,负责人安排的事项落实到位,学习者体验良好

录制:助教培训回放 日期:2025-07-06 19:38:38 录制文件:https://meeting.tencent.com/crm/l6bG88b9f3

各位助教们好,这里是群公告小助手(有助教手册、日程安排、助教激励、名单) 助教手册: https://exn8g66dnwu.feishu.cn/docx/XHh2d5ngjo4bcBxgiHxcTFEJnne?from=from_copylink

【Task01_零基础跑通baseline】
截止时间:7月10日 24:00

📍今晚24:00我们方向Task01就截止打卡了

截止时间:7月10日 24:00

⚠️结营证书、优秀学习者证书都是以打卡为准

@

今晚24:00我们方向Task01就截止打卡了 Task1还没打卡,✅15分钟跑一下baseline,教程右侧打卡即可

https://www.datawhale.cn/activity/324/learn/191/4314/6/5

第三天 7月10日

目标:# 三、你能读懂多少Baseline信息? https://www.datawhale.cn/activity/324/learn/191/4314/6/5

打开服务端地址

https://www.modelscope.cn/my/mynotebook/preset

核心信息 信息详情
赛事链接 https://challenge.xfyun.cn/h5/detail?type=video-comment-insight&ch=dwsfsp25-1
赛题任务类型 文本分类、文本聚类
Baseline 代码仓库 https://www.modelscope.cn/datasets/Datawhale/AISumerCamp_video_comments_insights_baseline.git
Baseline概况 - 所用编程语言:python - 使用的python库:pandas, sklearn - 测评分数:约为176
代码运行环境 Python 3.8+8核CPU、约30分钟
方案要点 1. 读取数据:origin_comments_data.csvorigin_videos_data.csv 2. 商品识别:使用视频文本信息,预测推广商品名称 <br> 1. 使用jieba进行中文分词<br> 2. 使用TF-IDF将文本转换为特征向量(限制最多50个特征)<br> 3. 使用SGDClassifier进行分类预测<br> 3. 情感分析:对四个评论维度(情感倾向、用户场景、用户疑问、用户建议)进行分类预测 <br> 1. 使用jieba分词<br> 2. 使用TF-IDF向量化<br> 3. 使用SGDClassifier进行分类<br> 4. 评论聚类:对五个聚类维度(正面、负面、用户场景、用户疑问、用户建议)聚类并生成聚类主题词 <br> 1. 使用jieba分词<br> 2. 使用TF-IDF向量化<br> 3. 使用KMeans聚类<br> 5. 保存结果并压缩成提交文件 submit.zip
相关知识点 1. 文本编码(Text Encoding) 2. 文本分类(Text Classification)

代码如下:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
import pandas as pd
video_data = pd.read_csv("origin_videos_data.csv")
comments_data = pd.read_csv("origin_comments_data.csv")
video_data.sample(10) 
//功能:从序列a中随机抽取n个元素,并将n个元素生以list形式返回

comments_data.head() //Return the first n rows.
video_data["text"] = video_data["video_desc"].fillna("") + " " + video_data["video_tags"].fillna("")


import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import SGDClassifier
from sklearn.svm import LinearSVC
from sklearn.cluster import KMeans
from sklearn.pipeline import make_pipeline


kmeans_predictor = make_pipeline(
    TfidfVectorizer(tokenizer=jieba.lcut), KMeans(n_clusters=2)
)

kmeans_predictor.fit(comments_data[comments_data["user_question"].isin([1])]["comment_text"])


kmeans_cluster_label = kmeans_predictor.predict(comments_data[comments_data["user_question"].isin([1])]["comment_text"])

kmeans_top_word = []
tfidf_vectorizer = kmeans_predictor.named_steps['tfidfvectorizer']
kmeans_model = kmeans_predictor.named_steps['kmeans']
feature_names = tfidf_vectorizer.get_feature_names_out()
cluster_centers = kmeans_model.cluster_centers_

for i in range(kmeans_model.n_clusters):
    top_feature_indices = cluster_centers[i].argsort()[::-1]
    top_word = ' '.join([feature_names[idx] for idx in top_feature_indices[:top_n_words]])
    kmeans_top_word.append(top_word)

comments_data.loc[comments_data["user_question"].isin([1]), "question_cluster_theme"] = [kmeans_top_word[x] for x in kmeans_cluster_label]


处理缺失值​​:

  • fillna(""):将 video_desc 和 video_tags 列中的缺失值(NaN)替换为空字符串
  • 避免因为 NaN 值导致字符串拼接失败(NaN + 字符串 = NaN)

https://scikit-learn.org/stable/

scikit-learn 是 Python 生态系统中广泛使用的一个开源库,专为机器学习相关任务而设计。

它基于 NumPy、SciPy 和 Matplotlib 构建,提供一套强大的工具和算法,用于执行数据分析、预处理、模型开发和评估等机器学习任务。