文件下载爬虫第四次提交，文档细节调整

Boris-code · gyj126 · Apr 7, 2026 · Apr 7, 2026 · Apr 7, 2026 · Apr 7, 2026
commit 744f17247f2b8c1f1069550bfe50b98dde97ff17
diff --git a/docs/usage/FileSpider.md b/docs/usage/FileSpider.md
@@ -7,7 +7,7 @@ FileSpider 是一款分布式文件下载爬虫，专用于批量下载文件/
 - **进度追踪**: 框架自动追踪每个任务的下载进度（成功数/失败数/总数）
 - **结果有序**: 下载结果列表与原始 URL 列表严格位置对应
 - **灵活存储**: 默认保存到本地磁盘，可重写为上传云存储（OSS/S3 等），不落盘
-- **文件去重**: 可选功能，同一 URL 不重复下载，支持 Redis / MySQL 两种策略
+- **文件去重**: 可选功能，同一 URL 不重复下载，支持 Redis / MySQL / 自定义 三种策略
 - **用户控制**: 任务成功/失败由用户在回调中显式决定
 
 FileSpider 继承自 TaskSpider，复用了全部任务管理能力（MySQL 任务表、Redis 队列、断点续爬、丢失任务回收、分布式支持等）。
@@ -127,7 +127,7 @@ if __name__ == "__main__":
     spider.start_monitor_task()
 ```
 
-### 场景二：上传云存储（不落盘）
+### 场景二：上传云存储
 
 重写 `process_file` 实现直接上传云存储：
 
@@ -142,7 +142,7 @@ class OssFileSpider(feapder.FileSpider):
     def __init__(self, *args, **kwargs):
         super().__init__(*args, **kwargs)
         # 初始化云存储客户端
-        # self.oss_client = OSSClient(bucket="my-bucket")
+        self.oss_client = OSSClient(bucket="my-bucket")
 
     def get_download_urls(self, task):
         return json.loads(task.file_urls)
@@ -154,7 +154,7 @@ class OssFileSpider(feapder.FileSpider):
 
     def process_file(self, task_id, url, file_path, response):
         """上传 OSS，返回云存储 URL"""
-        # self.oss_client.put_object(file_path, response.content)
+        self.oss_client.put_object(file_path, response.content)
         return f"https://my-bucket.oss.aliyuncs.com/{file_path}"
 
     def on_task_all_done(self, task_id, success_count, fail_count, total_count, results):
@@ -194,7 +194,7 @@ from items.file_result_item import FileResultItem
 class OssResultSpider(feapder.FileSpider):
     def __init__(self, *args, **kwargs):
         super().__init__(*args, **kwargs)
-        # self.oss_client = OSSClient(bucket="my-bucket")
+        self.oss_client = OSSClient(bucket="my-bucket")
 
     def get_download_urls(self, task):
         return json.loads(task.file_urls)
@@ -204,11 +204,11 @@ class OssResultSpider(feapder.FileSpider):
         return f"images/{task.id}/{index}_{filename}"
 
     def process_file(self, task_id, url, file_path, response):
-        # self.oss_client.put_object(file_path, response.content)
+        self.oss_client.put_object(file_path, response.content)
         return f"https://my-bucket.oss.aliyuncs.com/{file_path}"
 
     def on_task_all_done(self, task_id, success_count, fail_count, total_count, results):
-        # results 与 get_download_urls 返回的列表严格位置对应
+        # results 与 get_download_urls 返回的列表严格位置对应，下载失败的用null占位。如需去空，手动lamda表达式过滤即可。
         item = FileResultItem()
         item.task_id = task_id
         item.result_urls = json.dumps(results)