Metadata-Version: 2.3
Name: dataharvest
Version: 0.1.8
Summary: Add your description here
Author-email: yuvenhol <yuvenhol@gmail.com>
Requires-Python: >=3.8
Requires-Dist: cssutils>=2.11.1
Requires-Dist: html2text>=2024.2.26
Requires-Dist: parsel>=1.9.1
Requires-Dist: playwright>=1.44.0
Description-Content-Type: text/markdown

# DataHarvest

DataHarvest 是一个用于数据搜索、爬取、清洗的工具。

![DataHarvest](https://yuvenhol-1255563050.cos.ap-beijing.myqcloud.com/img/202407022046608.png)

## 数据爬取&清洗

| 网站       | 内容 | url pattern          | 爬取 | 清洗 |
|----------|----|----------------------|----|----|
| 百度百科     | 词条 | baike.baidu.com/item | ✅  | ✅  |
| 百度百家号    | 文章 | baijiahao.baidu.com/s | ✅  | ✅  |
| B站       | 文章 | www.bilibili.com/read | ✅  | ✅  |
| 腾讯网      | 文章 | new.qq.com/rain/a | ✅  | ✅  |
| 360个人图书馆 | 文章 | www.360doc.com/content | ✅  | ✅  |
| 360百科    | 词条 | baike.so.com/doc  | ✅  | ✅  |
| 搜狗百科     | 词条 | baike.sogou.com/v | ✅  | ✅  |
| 搜狐       | 文章 | www.sohu.com/a  | ✅  | ✅  |
| 头条       | 文章 | www.toutiao.com/article  | ✅  | ✅  |
| 网易       | 文章 | www.163.com/\w+/article/.+ | ✅  | ✅  |
| 微信公众号    | 文章 | weixin.qq.com/s | ✅  | ✅  |

## 安装与使用

```shell
pip install DataHarvest
```


