rules.json

{
    "vogais_fracas": "iouïöüy",
    "vogais_fortes": "aeáéóàèòãẽõâêôäëöíúìùĩũîû",
    "consoantes_fortes": "bcdfgjkpqtvwxyzç",
    "consoantes_l_r": "lr",
    "consoantes_nasais": "mn",
    "consoantes_s": "s",

    "digrafos": "ch|nh|gu|qu|lh",
    "padroes":[
        {
            "nome": "limpeza_espacos",
            "regex": "( )( )+",
            "sub": " "
        },
        {
            "nome": "hifen",
            "regex": "-",
            "sub": "-@"
        },
        {
            "nome": "consoantes_fortes",
            "regex": "([{consoantes_fortes}])",
            "sub": "@{\\1}"
        },
        {
            "nome": "consoantes_l_r",
            "regex": "(?<![{consoantes_fortes}{consoantes_s}])([{consoantes_l_r}])(?=[{vogais}])",
            "sub": "@{\\1}"
        },
        {
            "nome": "consoantes_forte_nasais",
            "regex": "@([{consoantes_fortes}])([{consoantes_nasais}])",
            "sub": "{\\1}@{\\2}"
        },
        {
            "nome": "consoantes_outras",
            "regex": "([{consoantes_nasais}{consoantes_s}])([{vogais}])",
            "sub": "@{\\1}{\\2}"
        },
        {
            "nome": "consoantes_l_r_nasais",
            "regex": "([{consoantes_l_r}])([{consoantes_nasais}])",
            "sub": "{\\1}@{\\2}"
        },
       
        {
            "nome": "digrafo",
            "regex": "({digrafos})",
            "sub": "@{\\1}"
        },
        {
            "nome": "hiato",
            "regex": "([{vogais}])(?=[{vogais_fortes}])",
            "sub": "{\\1}@"
        },
        {
            "nome": "letras_repetidas",
            "regex": "([{letras}])({\\\\1})",
            "sub": "{\\1}@{\\1}"
        },
        {
            "nome": "excecao_uiu",
            "regex": "(?<![gq])(u)([{vogais}]+)",
            "sub": "{\\1}@{\\2}"
        },
        {
            "nome": "excecao_gu_qu",
            "regex": "(?<=(gu|qu))@([{vogais}])",
            "sub": "{\\2}"
        },

        {
            "nome": "limpeza_consoantes_fortes",
            "regex": "@([{consoantes_fortes}])@",
            "sub": "{\\1}@"
        },
        {
            "nome": "limpeza_separador_duplo",
            "regex": "@@(?:@)?",
            "sub": "@"
        },
        {
            "nome": "limpeza_espaco_antes",
            "regex": "(\\s+)@",
            "sub": "{\\1}"
        },

        {
            "nome": "excecao_a-in",
            "regex": "(a)(in)([^{vogais}]|$|\\s+)",
            "sub": "{\\1}@{\\2}{\\3}"
        },
        {
            "nome": "excecao_a-inh",
            "regex": "(a)(i)@(nh[{vogais}])",
            "sub": "{\\1}@{\\2}@{\\3}"
        },
        {
            "nome":"limpeza_começo_palavra",
            "regex": "(^|\\s)@",
            "sub": "{\\1}"
        },
        {
            "nome":"limpeza_hifen",
            "regex": "(^|\\s)@",
            "sub": "{\\1}"
        },
        {
            "nome": "consoantes_sozinhas",
            "regex": "@([{consoantes_fortes}])([^{letras}]+)?($|\\s)",
            "sub": "{\\1}{\\2}"
        },
        {
            "nome": "excecao_a-um",
            "regex": "(a)(um)([^{vogais}]|$|\\s+)",
            "sub": "{\\1}@{\\2}{\\3}"
        },
        {
            "nome": "consoantes_nasais_ou_s_l_r",
            "regex": "([{consoantes_nasais}{consoantes_s}])([{consoantes_l_r}])",
            "sub": "{\\1}@{\\2}"
        }
    ]
}