Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Duplicated lines in JmdictFurigana.txt #3

Closed
fasiha opened this issue Apr 5, 2016 · 3 comments
Closed

Duplicated lines in JmdictFurigana.txt #3

fasiha opened this issue Apr 5, 2016 · 3 comments

Comments

@fasiha
Copy link

fasiha commented Apr 5, 2016

I was doing some processing and noticed this:

$ wc -l JmdictFurigana.txt
173456 JmdictFurigana.txt
$ sort JmdictFurigana.txt | uniq | wc -l
173376

Eighty lines in the input are duplicates. Easy enough to address on my end but it might mean something to you?

Edit: In case it's helpful, here they are (kanji headword & reading):

黒皮          くろかわ
黒ぶち        くろぶち
鹹水          かんすい
駆ける        かける
風物誌        ふうぶつし
雪釣り        ゆきづり
雪釣り        ゆきつり
雪釣          ゆきづり
雪釣          ゆきつり
陸            ろく
開放感        かいほうかん
軽卒          けいそつ
車知          しゃち
豪気          ごうき
豪            ごう
解かす        とかす
見取り        みとり
薄目          うすめ
荳            まめ
興し          おこし
網目          あみめ
細目          ほそめ
矢倉          やぐら
相判          あいばん
白目          しろめ
濠            ごう
漉く          すく
浅黄          あさぎ
泡立つ        あわだつ
河            かわ
沈子          ちんし
此の頃        このころ
標示          ひょうじ
梶            かじ
本間          ほんま
木目          もくめ
木目          きめ
揚げ          あげ
振りかえる    ふりかえる
指し          さし
投げ槍        なげやり
戎            えびす
悪い          にくい
心なし        こころなし
差し          さし
山梔子        さんしし
山嵐          やまあらし
尤も          もっとも
小手          こて
宿            しゅく
存知          ぞんじ
妻            つま
夷            えびす
天主          てんしゅ
固め          かため
命            みこと
呑み屋        のみや
合判          あいばん
合い判        あいばん
叔父          しゅくふ
叔父          おじ
卸し          おろし
卸            おろし
刹            せつ
刹            さつ
元            もと
保安          ほあん
仇名          あだな
人手          ひとで
乗っ取る      のっとる
丸のみ        まるのみ
上腿          じょうたい
めん棒        めんぼう
ふるい落とす  ふるいおとす
ふるい落す    ふるいおとす
つき物        つきもの
そう身        そうしん
すり込む      すりこむ
この頃        このころ
かん水        かんすい
@Doublevil
Copy link
Owner

Thanks, I'll take a look at that this weekend.

@Doublevil
Copy link
Owner

So, this happens when there are multiple entries with the same kanji and kana readings (though they may be completely separate words and bear different meanings).
I'm going to have to delete the duplicates (take only the first entry) to handle this case, because there is no point in having both and it may cause errors in processing tools.

@Doublevil
Copy link
Owner

Should be okay now. Thanks a lot for noticing and reporting the issue. :)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants