Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

space 함수 (숫자) 관련 문의 드립니다. #184

Closed
SsoYeon-kim opened this issue Oct 25, 2024 · 2 comments
Closed

space 함수 (숫자) 관련 문의 드립니다. #184

SsoYeon-kim opened this issue Oct 25, 2024 · 2 comments
Assignees
Labels
bug Something isn't working

Comments

@SsoYeon-kim
Copy link

SsoYeon-kim commented Oct 25, 2024

안녕하세요:) 지난번 문의에 대해 빠른 피드백과 긍정적으로 답변해 주셔서 정말 감사했습니다.
한 가지 더 문의드리고 싶은 사항이 있어 다시 글 남깁니다.

space()에서 숫자와 특정 품사(대명사, 수사, 일반 명사, 특수 문자 등)의 조합에 대해 띄어쓰기를 적용하는 것으로 이해했습니다.
그러나 여러 케이스를 테스트하던 중, ‘숫자+한글’ 조합에서 일관적으로 띄어지지 않는 문제를 발견했습니다.

[2개 주세요]
space: 2개 주세요
analyze: [([Token(form='2', tag='SN', start=0, len=1), Token(form='개', tag='NNB', start=1, len=1), Token(form='주', tag='VV', start=3, len=1), Token(form='세요', tag='EF', start=4, len=2)], -34.90214920043945)]

[2 개 주세요]
space: 2 개 주세요
analyze: [([Token(form='2', tag='SN', start=0, len=1), Token(form='개', tag='NNB', start=2, len=1), Token(form='주', tag='VV', start=4, len=1), Token(form='세요', tag='EF', start=5, len=2)], -34.90214920043945)]

[3 시 30 분 45 초]
space: 3 시 30 분 45 초
analyze: [([Token(form='3', tag='SN', start=0, len=1), Token(form='시', tag='NNB', start=2, len=1), Token(form='30', tag='SN', start=4, len=2), Token(form='분', tag='NNB', start=7, len=1), Token(form='45', tag='SN', start=9, len=2), Token(form='초', tag='NNB', start=12, len=1)], -23.09018325805664)]

[3시 30분 45초]
space: 3시 30분 45초
analyze: [([Token(form='3', tag='SN', start=0, len=1), Token(form='시', tag='NNB', start=1, len=1), Token(form='30', tag='SN', start=3, len=2), Token(form='분', tag='NNB', start=5, len=1), Token(form='45', tag='SN', start=7, len=2), Token(form='초', tag='NNB', start=9, len=1)], -23.09018325805664)]

[총3회]
space: 총 3회
analyze: [([Token(form='총', tag='MM', start=0, len=1), Token(form='3', tag='SN', start=1, len=1), Token(form='회', tag='NNB', start=2, len=1)], -20.186307907104492)]

[총 3 회]
space: 총 3 회
analyze: [([Token(form='총', tag='MM', start=0, len=1), Token(form='3', tag='SN', start=2, len=1), Token(form='회', tag='NNB', start=4, len=1)], -20.186307907104492)]

위 예시들에서 analyze의 결과가 동일함에도 space의 결과에서 띄어쓰기 패턴이 다르게 나타나는 문제가 있습니다. 특정 규칙에 따라 숫자와 한글(특히 의존 명사) 조합에 대해 띄어쓰기 처리가 되지 않는 것으로 보이는데, 해당 케이스들에 대해 일관된 규칙 적용이 가능할지 확인 부탁드립니다.

감사합니다!

@bab2min bab2min self-assigned this Oct 26, 2024
@bab2min bab2min added the bug Something isn't working label Oct 26, 2024
@bab2min
Copy link
Owner

bab2min commented Oct 26, 2024

안녕하세요 @SsoYeon-kim ,
아라비아 숫자 + 의존명사의 경우 띄어쓰기 규정에 따르면 붙여쓰는게 맞으나, 현재 space() 함수에서는 이에 대해 별도로 교정을 진행하지 않고 있는것이 확인되었습니다. 이 부분 역시 전에 제보해주신 오류와 함께 수정하도록 하겠습니다.
감사합니다!!

bab2min added a commit that referenced this issue Oct 26, 2024
@bab2min
Copy link
Owner

bab2min commented Oct 29, 2024

@SsoYeon-kim 제보해주신 버그는 수정 완료되어 v0.20.0에 반영되었습니다.
다시 한번 감사합니다~

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants