MediaCrawler:自媒体素材一键批量下载,多平台通吃

3分钟上手MediaCrawler:自媒体素材一键批量下载,多平台通吃

:spider: 什么是MediaCrawler?

MediaCrawler 是一款 开源多平台媒体爬取工具,像“自媒体素材挖掘机”,支持小红书、抖音、B站、微博等7大平台的视频、图片、评论批量抓取。基于浏览器自动化技术,无需复杂逆向,小白也能轻松上手,适合自媒体人、研究者收集素材(仅用于学习,遵守平台规则)。

:rocket: 工具直达链接

  • GitHub仓库开源地址(需遵守MIT协议,禁止商用)

:memo: 3步极速上手

Step 1:搭建环境(需电脑基础)

bash

# 1. 克隆项目到本地  
git clone https://github.com/NanmiCoder/MediaCrawler.git && cd MediaCrawler  

# 2. 创建虚拟环境(避免依赖冲突)  
python -m venv venv  
source venv/bin/activate  # Windows:venv\Scripts\activate  

# 3. 安装依赖库  
pip install -r requirements.txt  
playwright install  # 安装浏览器驱动(Chrome内核)  

Step 2:配置爬虫参数

bash

# 1. 编辑配置文件(用记事本打开config/base_config.py)  
PLATFORM = "xhs"  # 目标平台:xhs=小红书,dy=抖音,bili=B站  
KEYWORDS = "露营装备"  # 搜索关键词,英文逗号分隔  
ENABLE_GET_COMMENTS = True  # 开启评论爬取  
SAVE_DATA_OPTION = "csv"  # 保存格式:csv/json/mysql  

# 2. 扫码登录(运行后弹出二维码,用对应APP扫码)  
python main.py --platform xhs --lt qrcode --type search  

Step 3:批量抓取与导出

bash

# 开始搜索爬取(示例:小红书关键词搜索)  
python main.py --platform xhs --type search  

# 或指定帖子ID抓取(需替换帖子ID)  
python main.py --platform xhs --type detail --id 68771c88000000000d0258ce  

# ✨ 结果保存至data/目录,支持生成评论词云(需额外脚本)  

:light_bulb: 核心功能(小白必记)

功能 作用 适用场景
多平台支持 小红书/抖音/B站/微博等7大平台 跨平台素材收集
登录态缓存 一次扫码,多次使用 避免频繁验证
评论词云生成 可视化高频关键词 舆情分析、热点追踪
代理池防封 配置IP代理避免账号限制 大规模抓取

:warning: 注意事项

  1. 合法性:仅用于学习,遵守《网络安全法》和平台robots协议,勿过度请求。
  2. 环境问题:Windows需安装Node.js,Linux/macOS注意权限配置。
  3. 更新维护:开源项目可能停止更新,建议关注作者后续版本。

:sparkles: 一句话总结:MediaCrawler让自媒体素材收集效率翻倍!3分钟搭建爬虫环境,多平台资源一键获取,记得合法使用哦~