全球灰产交流论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

全球云38元起免备案V2EX搬瓦工灰产
SEO查询超级PING网站测速
Virmach特价鸡乌云漏洞吾爱破解
查看: 190|回复: 10

爬虫大佬们 帮我看看这个到底哪里没搞对

[复制链接]

43

主题

515

回帖

1739

积分

金牌会员

Rank: 6Rank: 6

积分
1739
发表于 2024-7-18 22:54:19 | 显示全部楼层 |阅读模式
20230417
本帖最后由 花菜大魔王 于 2024-7-18 22:56 编辑

目的是根据电影名字爬取豆瓣ID  保存格式为文件夹名字  一个电影生产一个文件夹《电影名字,豆瓣ID》  
搞了好久都获取不到ID
下面还有一段 一起发说安全问题 发不出来...

  1. import requests
  2. from bs4 import BeautifulSoup
  3. import os
  4. import re
  5. import time

  6. # 搜索链接
  7. search_url = "https://search.douban.com/movie/subject_search?search_text={}&cat=1002"

  8. movies = [
  9.     "毒舌律师",
  10.     "满江红",
  11.     "倒数说爱你",
  12.     "别叫我“赌神”",
  13.     "银河护卫队3",
  14.     "温柔壳",
  15.     "盟约",
  16.     "检察风云",
  17.     "消失的她",
  18.     "蚁人与黄蜂女:量子狂潮",
  19.     "惊声尖叫6",
  20.     "荒原",
  21.     "无名",
  22.     "望道",
  23.     "龙与地下城:侠盗荣耀",
  24.     "小行星城",
  25.     "交涉",
  26.     "疾速追杀4",
  27.     "茶啊二中",
  28.     "中国乒乓之绝地反击",
  29.     "再见,我的灵魂伴侣",
  30.     "这么多年",
  31.     "星条红与皇室蓝",
  32.     "网络谜踪2",
  33.     "蜘蛛侠:纵横宇宙",
  34.     "变形金刚:超能勇士崛起",
  35.     "小美人鱼",
  36.     "我爱你!",
  37.     "长沙夜生活",
  38.     "人生路不熟"
  39. ]
复制代码

hostloc邀请码购买+tg:@Sendtoae86bot
回复

使用道具 举报

43

主题

515

回帖

1739

积分

金牌会员

Rank: 6Rank: 6

积分
1739
 楼主| 发表于 2024-7-18 22:57:33 | 显示全部楼层
无语   后面一段发不出来  就图片了
hostloc邀请码购买+tg:@Sendtoae86bot
回复 支持 反对

使用道具 举报

80

主题

199

回帖

908

积分

高级会员

Rank: 4

积分
908
发表于 2024-7-18 23:01:53 | 显示全部楼层
代码交给gpt分分钟给你搞明白
hostloc邀请码购买+tg:@Sendtoae86bot
回复 支持 反对

使用道具 举报

43

主题

515

回帖

1739

积分

金牌会员

Rank: 6Rank: 6

积分
1739
 楼主| 发表于 2024-7-18 23:04:49 | 显示全部楼层
Far 发表于 2024-7-18 23:01
代码交给gpt分分钟给你搞明白

就是gpt写的
hostloc邀请码购买+tg:@Sendtoae86bot
回复 支持 反对

使用道具 举报

0

主题

39

回帖

150

积分

注册会员

Rank: 2

积分
150
发表于 2024-7-18 23:01:00 | 显示全部楼层
数据在 window.__DATA__
hostloc邀请码购买+tg:@Sendtoae86bot
回复 支持 反对

使用道具 举报

43

主题

515

回帖

1739

积分

金牌会员

Rank: 6Rank: 6

积分
1739
 楼主| 发表于 2024-7-18 23:13:10 | 显示全部楼层
wusir 发表于 2024-7-18 23:13
数据在 window.__DATA__

但是没获取到豆瓣ID
hostloc邀请码购买+tg:@Sendtoae86bot
回复 支持 反对

使用道具 举报

5

主题

179

回帖

593

积分

高级会员

Rank: 4

积分
593
发表于 2024-7-18 23:18:18 | 显示全部楼层

  1. pattern = re.compile(r'https://movie.douban.com/subject/(\d+)/')
  2. douban_id = pattern.findall(response.text)

复制代码
hostloc邀请码购买+tg:@Sendtoae86bot
回复 支持 反对

使用道具 举报

5

主题

179

回帖

593

积分

高级会员

Rank: 4

积分
593
发表于 2024-7-18 23:13:00 | 显示全部楼层

注意我用 findall 返回的是一个 list 哦
hostloc邀请码购买+tg:@Sendtoae86bot
回复 支持 反对

使用道具 举报

43

主题

515

回帖

1739

积分

金牌会员

Rank: 6Rank: 6

积分
1739
 楼主| 发表于 2024-7-18 23:32:21 | 显示全部楼层
2569138941 发表于 2024-7-18 23:36
注意我用 findall 返回的是一个 list 哦

老哥能给个全部的吗   搞一晚上没搞好  
hostloc邀请码购买+tg:@Sendtoae86bot
回复 支持 反对

使用道具 举报

0

主题

1

回帖

4

积分

新手上路

Rank: 1

积分
4
发表于 2024-7-18 23:18:00 | 显示全部楼层
花菜大魔王 发表于 2024-7-18 23:58
老哥能给个全部的吗   搞一晚上没搞好

就去soup直接正则匹配就好
https://paste.ubuntu.com/p/v7pFZsbs9m/代码发不出
hostloc邀请码购买+tg:@Sendtoae86bot
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

展开

QQ|Archiver|手机版|小黑屋|全球灰产交流论坛

GMT+8, 2024-10-23 22:30 , Processed in 0.047168 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表