pyppeteer

pyppeteer 在AppData下的dev_profile 生成大量文件

python爬虫 • 李魔佛发表了文章 • 0 个评论 • 3754 次浏览 • 2021-04-28 12:18 • 来自相关话题

具体路径在：
C:\Users\xda\AppData\Local\pyppeteer\pyppeteer\.dev_profile
运行次数多了，这个目录下积累了几十个G的文件。

因为每次启动pyppeteer后，如果不指定userData目录，会在dev_profile生成一个新的userData目录，每次大概30MB左右的打小，所以启动的次数，越多，这个文件夹的体积就越大。
其实可以直接删除，然后启动pyppeteer是加上一个参数：userDataDir
browser = await pyppeteer.launch(
{'headless': False,
'userDataDir': UserDataDir,
'defaultViewport': {'width': 1800, 'height': 1000},
# 'enable-automation':False,
# 'ignoreDefaultArgs':['--enable-automation'],
'ignoreDefaultArgs':True,
}userDataDir='D:\Temp'
这样每次pyppeteer都会用同一个配置文件，并且还可以把cookies，session文件存在同一个地方，如果登录过的网站，下次可以直接登录，不需要再次输入账号密码。

查看全部

具体路径在：
C:\Users\xda\AppData\Local\pyppeteer\pyppeteer\.dev_profile
运行次数多了，这个目录下积累了几十个G的文件。

因为每次启动pyppeteer后，如果不指定userData目录，会在dev_profile生成一个新的userData目录，每次大概30MB左右的打小，所以启动的次数，越多，这个文件夹的体积就越大。
其实可以直接删除，然后启动pyppeteer是加上一个参数：userDataDir

    browser = await pyppeteer.launch(

        {'headless': False,

         'userDataDir': UserDataDir,

         'defaultViewport': {'width': 1800, 'height': 1000},

         # 'enable-automation':False,

         # 'ignoreDefaultArgs':['--enable-automation'],

         'ignoreDefaultArgs':True,

         }

userDataDir='D:\Temp'
这样每次pyppeteer都会用同一个配置文件，并且还可以把cookies，session文件存在同一个地方，如果登录过的网站，下次可以直接登录，不需要再次输入账号密码。

pyppeteer-pdf not support latest version of pypeteer

python爬虫 • 李魔佛发表了文章 • 0 个评论 • 2792 次浏览 • 2021-04-04 18:23 • 来自相关话题

只能用0.0.25版本的pypeteer。
只好下载一个低版本的chrouium放到本地。

或者使用另一个库
https://github.com/shivanshs9/pdfgen-python

pyppeteer禁用自动化提示栏 --enable-automation参数关闭

python爬虫 • 李魔佛发表了文章 • 0 个评论 • 5605 次浏览 • 2021-04-04 14:49 • 来自相关话题

在启动的时候加入一个参数即可： browser = await pyppeteer.launch(
{'headless': False,
'userDataDir': UserDataDir,
'defaultViewport': {'width': 1800, 'height': 1000},
# 'enable-automation':False,
'ignoreDefaultArgs':['--enable-automation'],
}
)
忽略默认参数：
'ignoreDefaultArgs':['--enable-automation'],
即可，
如果需要去除更多的特征，在列表里面加入更多即可。
如果全部不要，那么就把它设置为True即可。

查看全部

在启动的时候加入一个参数即可：

    browser = await pyppeteer.launch(

        {'headless': False,

         'userDataDir': UserDataDir,

         'defaultViewport': {'width': 1800, 'height': 1000},

         # 'enable-automation':False,

         'ignoreDefaultArgs':['--enable-automation'],

         }

    )

忽略默认参数：
'ignoreDefaultArgs':['--enable-automation'],
即可，
如果需要去除更多的特征，在列表里面加入更多即可。
如果全部不要，那么就把它设置为True即可。

pyppeteer设置浏览器大小

python爬虫 • 李魔佛发表了文章 • 0 个评论 • 4050 次浏览 • 2021-04-04 12:06 • 来自相关话题

在初始化时加入 defaultViewport字典值即可：
browser = await pyppeteer.launch(
{'headless': False,
'userDataDir': UserDataDir,
'defaultViewport': {'width': 1800, 'height': 1000}
}
)
更多参数可以查看pyppeteer的源码。
self.handleSIGINT = options.get('handleSIGINT', True)
self.handleSIGTERM = options.get('handleSIGTERM', True)
self.handleSIGHUP = options.get('handleSIGHUP', True)
self.ignoreHTTPSErrors = options.get('ignoreHTTPSErrors', False)
self.defaultViewport = options.get('defaultViewport', {'width': 800, 'height': 600}) # noqa: E501
self.slowMo = options.get('slowMo', 0)
self.timeout = options.get('timeout', 30000)
self.autoClose = options.get('autoClose', True)

查看全部

在初始化时加入 defaultViewport字典值即可：

    browser = await pyppeteer.launch(

        {'headless': False,

         'userDataDir': UserDataDir,

         'defaultViewport': {'width': 1800, 'height': 1000}

         }

    )

更多参数可以查看pyppeteer的源码。

        self.handleSIGINT = options.get('handleSIGINT', True)

        self.handleSIGTERM = options.get('handleSIGTERM', True)

        self.handleSIGHUP = options.get('handleSIGHUP', True)

        self.ignoreHTTPSErrors = options.get('ignoreHTTPSErrors', False)

        self.defaultViewport = options.get('defaultViewport', {'width': 800, 'height': 600})  # noqa: E501

        self.slowMo = options.get('slowMo', 0)

        self.timeout = options.get('timeout', 30000)

        self.autoClose = options.get('autoClose', True)

pyppeteer下载chromedriver失败的解决办法

python爬虫 • 李魔佛发表了文章 • 0 个评论 • 4377 次浏览 • 2021-04-01 00:05 • 来自相关话题

因为网址变了！
urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='storage.googleapis.com', port=443): Max retries exceeded with url: /chromium-browser-snapshots/Win_
x64/588429/chrome-win32.zip (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x00000000037D3880>: Failed to establish a new connect
ion: [Errno 11004] getaddrinfo failed'))
用浏览器看了，发现根本打不开。
然后谷歌了一下它的镜像，实际链接为：
https://commondatastorage.googleapis.com/chromium-browser-snapshots/Win_x64/575458/chrome-win32.zip

所以，哎，这个库真的有点烂。
直接下载上面的链接，然后解压到本地路径，然后在设置一个环境变量指向这个目录即可。
查看全部

因为网址变了！

urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='storage.googleapis.com', port=443): Max retries exceeded with url: /chromium-browser-snapshots/Win_

x64/588429/chrome-win32.zip (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x00000000037D3880>: Failed to establish a new connect

ion: [Errno 11004] getaddrinfo failed'))

用浏览器看了，发现根本打不开。
然后谷歌了一下它的镜像，实际链接为：
https://commondatastorage.googleapis.com/chromium-browser-snapshots/Win_x64/575458/chrome-win32.zip

所以，哎，这个库真的有点烂。
直接下载上面的链接，然后解压到本地路径，然后在设置一个环境变量指向这个目录即可。

pyppeteer 在AppData下的dev_profile 生成大量文件

python爬虫 • 李魔佛发表了文章 • 0 个评论 • 3754 次浏览 • 2021-04-28 12:18 • 来自相关话题

具体路径在：
C:\Users\xda\AppData\Local\pyppeteer\pyppeteer\.dev_profile
运行次数多了，这个目录下积累了几十个G的文件。

    browser = await pyppeteer.launch(

        {'headless': False,

         'userDataDir': UserDataDir,

         'defaultViewport': {'width': 1800, 'height': 1000},

         # 'enable-automation':False,

         # 'ignoreDefaultArgs':['--enable-automation'],

         'ignoreDefaultArgs':True,

         }

pyppeteer-pdf not support latest version of pypeteer

python爬虫 • 李魔佛发表了文章 • 0 个评论 • 2792 次浏览 • 2021-04-04 18:23 • 来自相关话题

只能用0.0.25版本的pypeteer。
只好下载一个低版本的chrouium放到本地。

或者使用另一个库
https://github.com/shivanshs9/pdfgen-python

pyppeteer禁用自动化提示栏 --enable-automation参数关闭

python爬虫 • 李魔佛发表了文章 • 0 个评论 • 5605 次浏览 • 2021-04-04 14:49 • 来自相关话题

在启动的时候加入一个参数即可：

    browser = await pyppeteer.launch(

        {'headless': False,

         'userDataDir': UserDataDir,

         'defaultViewport': {'width': 1800, 'height': 1000},

         # 'enable-automation':False,

         'ignoreDefaultArgs':['--enable-automation'],

         }

    )

pyppeteer设置浏览器大小

python爬虫 • 李魔佛发表了文章 • 0 个评论 • 4050 次浏览 • 2021-04-04 12:06 • 来自相关话题

在初始化时加入 defaultViewport字典值即可：

    browser = await pyppeteer.launch(

        {'headless': False,

         'userDataDir': UserDataDir,

         'defaultViewport': {'width': 1800, 'height': 1000}

         }

    )

更多参数可以查看pyppeteer的源码。

        self.handleSIGINT = options.get('handleSIGINT', True)

        self.handleSIGTERM = options.get('handleSIGTERM', True)

        self.handleSIGHUP = options.get('handleSIGHUP', True)

        self.ignoreHTTPSErrors = options.get('ignoreHTTPSErrors', False)

        self.defaultViewport = options.get('defaultViewport', {'width': 800, 'height': 600})  # noqa: E501

        self.slowMo = options.get('slowMo', 0)

        self.timeout = options.get('timeout', 30000)

        self.autoClose = options.get('autoClose', True)

pyppeteer下载chromedriver失败的解决办法

python爬虫 • 李魔佛发表了文章 • 0 个评论 • 4377 次浏览 • 2021-04-01 00:05 • 来自相关话题

因为网址变了！

urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='storage.googleapis.com', port=443): Max retries exceeded with url: /chromium-browser-snapshots/Win_

x64/588429/chrome-win32.zip (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x00000000037D3880>: Failed to establish a new connect

ion: [Errno 11004] getaddrinfo failed'))

更多...

pyppeteer 在AppData下的dev_profile 生成大量文件

pyppeteer-pdf not support latest version of pypeteer

pyppeteer禁用自动化提示栏 --enable-automation参数关闭

pyppeteer设置浏览器大小

pyppeteer下载chromedriver失败的解决办法

pyppeteer 在AppData下的dev_profile 生成大量文件

pyppeteer-pdf not support latest version of pypeteer

pyppeteer禁用自动化提示栏 --enable-automation参数关闭

pyppeteer设置浏览器大小

pyppeteer下载chromedriver失败的解决办法

话题描述

相关话题

最佳回复者

1 人关注该话题