3分钟上手MediaCrawler:自媒体素材一键批量下载,多平台通吃
什么是MediaCrawler?
MediaCrawler 是一款 开源多平台媒体爬取工具,像“自媒体素材挖掘机”,支持小红书、抖音、B站、微博等7大平台的视频、图片、评论批量抓取。基于浏览器自动化技术,无需复杂逆向,小白也能轻松上手,适合自媒体人、研究者收集素材(仅用于学习,遵守平台规则)。
工具直达链接
- GitHub仓库:开源地址(需遵守MIT协议,禁止商用)
3步极速上手
Step 1:搭建环境(需电脑基础)
bash
# 1. 克隆项目到本地
git clone https://github.com/NanmiCoder/MediaCrawler.git && cd MediaCrawler
# 2. 创建虚拟环境(避免依赖冲突)
python -m venv venv
source venv/bin/activate # Windows:venv\Scripts\activate
# 3. 安装依赖库
pip install -r requirements.txt
playwright install # 安装浏览器驱动(Chrome内核)
Step 2:配置爬虫参数
bash
# 1. 编辑配置文件(用记事本打开config/base_config.py)
PLATFORM = "xhs" # 目标平台:xhs=小红书,dy=抖音,bili=B站
KEYWORDS = "露营装备" # 搜索关键词,英文逗号分隔
ENABLE_GET_COMMENTS = True # 开启评论爬取
SAVE_DATA_OPTION = "csv" # 保存格式:csv/json/mysql
# 2. 扫码登录(运行后弹出二维码,用对应APP扫码)
python main.py --platform xhs --lt qrcode --type search
Step 3:批量抓取与导出
bash
# 开始搜索爬取(示例:小红书关键词搜索)
python main.py --platform xhs --type search
# 或指定帖子ID抓取(需替换帖子ID)
python main.py --platform xhs --type detail --id 68771c88000000000d0258ce
# ✨ 结果保存至data/目录,支持生成评论词云(需额外脚本)
核心功能(小白必记)
| 功能 | 作用 | 适用场景 |
|---|---|---|
| 多平台支持 | 小红书/抖音/B站/微博等7大平台 | 跨平台素材收集 |
| 登录态缓存 | 一次扫码,多次使用 | 避免频繁验证 |
| 评论词云生成 | 可视化高频关键词 | 舆情分析、热点追踪 |
| 代理池防封 | 配置IP代理避免账号限制 | 大规模抓取 |
注意事项
- 合法性:仅用于学习,遵守《网络安全法》和平台robots协议,勿过度请求。
- 环境问题:Windows需安装Node.js,Linux/macOS注意权限配置。
- 更新维护:开源项目可能停止更新,建议关注作者后续版本。
一句话总结:MediaCrawler让自媒体素材收集效率翻倍!3分钟搭建爬虫环境,多平台资源一键获取,记得合法使用哦~