Metadata-Version: 2.1
Name: shirkhan
Version: 0.0.21
Summary: shirkhan tools
Home-page: https://github.com/ishirkhan
Author: shirkhan
Author-email: uybabbage@hotmail.com
License: UNKNOWN
Platform: UNKNOWN
Classifier: Programming Language :: Python :: 3.9
Classifier: License :: OSI Approved :: MIT License
Classifier: Operating System :: OS Independent
Description-Content-Type: text/markdown
Requires-Dist: pycryptodome
Requires-Dist: xlrd
Requires-Dist: openpyxl
Provides-Extra: shirkhan_extra
Requires-Dist: praatio ; extra == 'shirkhan_extra'
Requires-Dist: pydub ; extra == 'shirkhan_extra'

# shirkhan

the python tool library for shirkhan
> currently using with project u-open-imla

# Usage

## 安装

```shell
pip install shirkhan
```

## 更新

```shell
 pip install --upgrade shirkhan
```

## 删除

```shell
 pip uninstall  shirkhan
```

```python
from shirkhan import decode, encode, syllabify

encode("xxxx")
decode("yyy")
word = "شىرخان"
print(syllabify(word))

```

# 功能示例：

## 分音节

    思路：
    1. 把单词向量化，按照元音，辅音 的0，1 值生成token 0100100
    2. 从后往前分析 所以需要反转 retoken 0010010
    3. 把retoken 以元音为分界分组 001 001 0
    4. 按照分音节通用算法进行给retoken 植入分隔符
        - 两个元音之间有1个辅音它属于前面的音节
        - 两个元音之间有2个辅音它一个属于前面的，一个属于后面的
        - 两个元音之间有3个辅音 第一个属于前面的，后两个属于后面的
        - 两个元音之间有4个辅音 第一个属于前面的，其后的两个一组，最后一个属于后面的   【shirkhan 给自己出的规则，目前没有任何凭据这么做，而且是不对的】
        - 两个元音之间有5个辅音 第一个属于前面的，其后的三个一组，最后一个属于后面的   【shirkhan 给自己出的规则，目前没有任何凭据这么做，而且是不对的】

    5. 把嵌入分割符的retoken分割点坐标映射到原始内容上 i -> len(word)-i
    6. 按照分割符切割

```python
from shirkhan import syllabify

print(syllabify('شىرخان'))

# output ['شىر', 'خان']
```

## 元音辅音组合的向量

```python
from shirkhan import SWord

target_word = "شىرخان"

print(SWord(target_word).tokenize())

# output 010010
```

## 组合向量分组

```python
from shirkhan import SWord

target_word = "شىرخاننىڭمۇ"
sw = SWord(target_word)
gtoken = sw.get_grouped_token()
gretoken = sw.get_grouped_retoken()

print(sw.tokenize())
print(gtoken)
print(gretoken)

# 01001001001
# [['0', '1'], ['0', '0', '1'], ['0', '0', '1'], ['0', '0', '1']]
# [['1'], ['0', '0', '1'], ['0', '0', '1'], ['0', '0', '1'], ['0']]
```

## 分音原始内容

```python
from shirkhan import SWord

target_word = "شىرخاننىڭمۇ"
sw = SWord(target_word)
print(sw.get_positional_word())
print(sw.get_positional_token())
print(sw.get_positional_retoken())

# شىرxخانxنىڭxمۇ
# 010x010x010x01
# 10x010x010x010
```

## 单词生成字单词

```python
# 第一种方式
from shirkhan import SWord

target_word = "شىرخاننىڭمۇ"
sw = SWord(target_word)
print(sw.get_similar_words())

# 第二种方式
from shirkhan import SWord

target_word = "شىرخاننىڭمۇ"
print(SWord(target_word))

# output:
# ['شىر', 'شىرخان', 'شىرخاننىڭ', 'شىرخاننىڭمۇ']

```


