MediaCrawler：自媒体素材一键批量下载，多平台通吃

admin · 2025 年9 月 29 日 05:38

3分钟上手MediaCrawler：自媒体素材一键批量下载，多平台通吃

什么是MediaCrawler？

MediaCrawler 是一款 开源多平台媒体爬取工具，像“自媒体素材挖掘机”，支持小红书、抖音、B站、微博等7大平台的视频、图片、评论批量抓取。基于浏览器自动化技术，无需复杂逆向，小白也能轻松上手，适合自媒体人、研究者收集素材（仅用于学习，遵守平台规则）。

工具直达链接

GitHub仓库：开源地址（需遵守MIT协议，禁止商用）

3步极速上手

Step 1：搭建环境（需电脑基础）

bash

# 1. 克隆项目到本地  
git clone https://github.com/NanmiCoder/MediaCrawler.git && cd MediaCrawler  

# 2. 创建虚拟环境（避免依赖冲突）  
python -m venv venv  
source venv/bin/activate  # Windows：venv\Scripts\activate  

# 3. 安装依赖库  
pip install -r requirements.txt  
playwright install  # 安装浏览器驱动（Chrome内核）

Step 2：配置爬虫参数

bash

# 1. 编辑配置文件（用记事本打开config/base_config.py）  
PLATFORM = "xhs"  # 目标平台：xhs=小红书，dy=抖音，bili=B站  
KEYWORDS = "露营装备"  # 搜索关键词，英文逗号分隔  
ENABLE_GET_COMMENTS = True  # 开启评论爬取  
SAVE_DATA_OPTION = "csv"  # 保存格式：csv/json/mysql  

# 2. 扫码登录（运行后弹出二维码，用对应APP扫码）  
python main.py --platform xhs --lt qrcode --type search

Step 3：批量抓取与导出

bash

# 开始搜索爬取（示例：小红书关键词搜索）  
python main.py --platform xhs --type search  

# 或指定帖子ID抓取（需替换帖子ID）  
python main.py --platform xhs --type detail --id 68771c88000000000d0258ce  

# ✨ 结果保存至data/目录，支持生成评论词云（需额外脚本）

核心功能（小白必记）

功能	作用	适用场景
多平台支持	小红书/抖音/B站/微博等7大平台	跨平台素材收集
登录态缓存	一次扫码，多次使用	避免频繁验证
评论词云生成	可视化高频关键词	舆情分析、热点追踪
代理池防封	配置IP代理避免账号限制	大规模抓取

注意事项

合法性：仅用于学习，遵守《网络安全法》和平台robots协议，勿过度请求。
环境问题：Windows需安装Node.js，Linux/macOS注意权限配置。
更新维护：开源项目可能停止更新，建议关注作者后续版本。

一句话总结：MediaCrawler让自媒体素材收集效率翻倍！3分钟搭建爬虫环境，多平台资源一键获取，记得合法使用哦～