アカウント名:
パスワード:
原因のひとつの要因はあまりにも似たグリフがある日本語の欠陥だと思う濁音と半濁音といった微妙な違いも老眼に優しくない
ムシマル=マツムラこれも日本語の欠陥ですか?(知らない人はググってみよう)
活字だと、明らかに違うとわかるけど、手書きだとねぇ・・・・
ルーメソ も追加で
インド人を右に [google.co.jp]
一とーと−とか
それよりユニコードを御覧じろ。
https://hydrocul.github.io/wiki/blog/2014/1101-hyphen-minus-wave-tilde.html [github.io]
ユニコードの最初の方針は「日本と中国と台湾の似ている形の漢字は全部まとめてしまえ」だったのにね
Wikipediaの記述を信じるなら32bitのISO 10646は別コードを予定していましたが16bitの初期Unicodeは元から統合漢字を前提としていたようです。ISO 10646がUnicodeに合流したせいでややこしい事になっていますが。
Han Unification を決めたのは欧米人じゃなくて当の日中韓のメンバーによるワーキンググループじゃなかったっけ。実際のところ共通する文字、例えば「一」とかを日中(簡体/繁體)韓で分けちゃうと古典とか悲惨なことになるし現代の新聞記事すら引用したり検索したりするときに変換が必要なことになって不便きわまりなくなるからね。ギリシャ字のΑとローマ字のAみたいに見た目は似ていても使われ方がはっきりわかれているのとは違い、間違いなく同じ字だから同じコードを割り当てただけだ。
こういう例 [kyoto-u.ac.jp]を見ると実際それも怪しいような。そりゃ人間が分類したんだからミスはあるでしょうが、ちょっとねぇ。
違います。unified ideographs なんて概念まで作り出すくらいに同じだけど字形が違う物も、同じ文字として扱うって方針でした。個人的にも統合できませんって反対する活動もしてたました。極初期のころでも 6万文字程度では、とうてい足りないのは欧米圏の人も理解してましたので、その頃でも余ってるという認識は一般的じゃないですよ。
結局、後になって絵文字にドハマリ…。
「○○丁目1ー3」とか恥ずかしいよね。ゴシック体だと区別がつかないことが多々あるので、住所の入力フォームは明朝体にしてほしい。
別に日本語に限った話じゃないでしょ?O0とかlI!|とかウムラウトとかアクサンとか。
そりゃそうだO0とillとかはアルファベットの欠陥の一つでしょ
O0とillとかはアルファベットの欠陥の一つでしょ
数字の0はアルファベットに含まれるのか?アラビア数字(別の体系の文字)を混ぜて使ってるからでは。
СССР(キリル文字) は CCCP と紛らわしいが、欠陥というわけではない。
# まあ、紛らわしくない数字の文字を、人工的に作っても良いとは思う。# 普及するとは限らないが
# まあ、紛らわしくない数字の文字を、人工的に作っても良いとは思う。 # 普及するとは限らないが
スラッシュド・ゼロはそれなりに普及してましたね。 あと、大字も必要なところでは使われます。ま、あれは紛らわしさを防ぐというよりは改ざん防止ですが。
以前SMS認証込みで携帯電話のSMSにユーザーIDと初期パスワードが送られてきたことがあったのだが、そのユーザーIDがこともあろうに大文字I(アイ)小文字l(エル)大文字I(アイ)+数字5桁(つまり、IlI12345みたいな)だったことがあって、さらにその時のフォントがIとlの区別がつきにくいうえにSMSなんで転送もすぐにできずに結局問い合わせで電話した記憶が。
とりあえず日本ディスりたい人かな?その文化が使う文字が多ければ多いほど、似た形が増えるのは欠点でも欠陥でもなく、ただの必然。
そもそも二とニ、あるいは=だろうと形が同じならそれぞれを厳密に区別する必要などないんだよ。なぜなら、人間はコードポイントでなく字形と文脈で判断しているのだから。
すなわち欠陥を持っているのは、字形でなくコードポイントで文字を扱う計算アルゴリズムそのものだ。いずれ画像認識や言語要素解析処理が発達すれば本来の文字の用途のとおり正しくコンピュータも字形と文脈で文字を扱えるようになるだろう
>人間はコードポイントでなく字形と文脈で判断しているのだから。
「ミレニアル」を「ミレ二(2)アル」と書くサイトが多すぎ【気になって眠れない】と訴える人は人間ではない、と。
それはPCかスマホだからでしょ。印刷して紙にして読めば日本人の99.99%は違いがあることも気づかないだろう。人類はずっと手書きの癖のある文字をずっと読み続けてきたんだぞ。たかがニごときの小さなこと気にして眠れなくなる人間が居たとしたら山ほどある字形違いを目にしてとっくに不眠症で「仏」になってるさ。
その場合、実際に検索に引っかからないなどの弊害が出るからじゃない?#3316479のいう、「コードポイントで文字を扱う計算アルゴリズム」の欠陥の問題。
日本語でも50音というシステムは感動したし好きだぞ必然であっても欠点になりうる
欠点≠欠陥
でもヘとへはさすがに擁護できない
そうじゃなくて、それは同じものなんだよ。ひらがなとカタカナとで字形を分ける必要なんて本当はないんだ。よく考えてみ。じゃあカタカナの「ヘ」の字形を仮に「〆」に変えたとしよう。なんかいいことある?嬉しがるのはコードポイントなんてものを使うコンピュータだけさ。人間にとっては、あえて区別するメリットなんて実は何一つないんだよ。
「区別あるよ」と「区別アルヨ」は同じですか?
音声読み上げ機能を必要としている方には大変不便でしょうね。認識ソフトが誤字を自動判断してもいいんでしょうけど、今度は誤判断の問題も出てきちゃう。
特に濁音・半濁音は本来似てないでしょ。
モニタの解像度の問題のほうが大きいんじゃないですかね。最近では4KモニタとかRetinaディスプレイなんかによって解決されつつあるが。
解像度がいくら良くなっていても無理目が悪くなってきたらわかるよ
1と2が似るなんてことは普通のフォントじゃありえないのでは?でも濁音・半濁音が判別しにくいのは山ほどあるでしょう
「5432l」はJavaパズラーにも出てたっけな。
#ところで#はシャープ?ハッシュ?#007は「だぶるおーせぶん」って読むんだっけ?
ナンバーだと。
♯(シャープ)は縦棒が垂直で横棒がななめだよ。
イゲタ
プッシュホンの星印はどれだ: ※*⚹*
O157が0157となっているのはよく見る。
北海道に焼肉やら海鮮やらがそこそこ美味しい街があるのですが、お店の電話番号にことごとく0157が含まれていて困ります
日本人は0517も美味しく頂いてしまうほど食への執着は凄まじいのです。
人間ドッグとかベットで寝るとかバトミントンとか。
潰れたフォントだとベットとペットは判別しにくいですね。ベットと一緒にペットで寝るとか。
正しくは、人間ドック、ベッド、バドミントンです。
「Tバックで紅茶を入れる」「それ、ティーパックの間違いだろ?」
#ティーバッグ(BAG)です。 https://www.amazon.co.jp/dp/B00D13G6ZG/ [amazon.co.jp]##バグ出し 5963
そんな下らねーコトは気にしないビックな男になってやるぜー
# 家電量販店にでも務めるつもりか?
ピッグな男になるのがせいぜいだろう。
漢字を崩して使っていた文字のうち多数派として生き残ったのが今の形だから欠陥だと言ってもしょうがないよ。
そもそも、文字コードが絡まなければ実用上は何の問題もないし。
例の「暴 カニ男」も同じ原因ですね
フォントのせいさらにいうとMSP明朝のジャギーしまくりで濁点と半濁点すら判別できない字体がわるいよくあれを間違えずに読める人はある意味すごい
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond
日本語の欠陥のひとつ (スコア:0, すばらしい洞察)
原因のひとつの要因はあまりにも似たグリフがある日本語の欠陥だと思う
濁音と半濁音といった微妙な違いも老眼に優しくない
Re:日本語の欠陥のひとつ (スコア:1)
ムシマル=マツムラ
これも日本語の欠陥ですか?(知らない人はググってみよう)
活字だと、明らかに違うとわかるけど、手書きだとねぇ・・・・
Re: (スコア:0)
ルーメソ も追加で
それを言うなら (スコア:0)
インド人を右に [google.co.jp]
Re: (スコア:0)
Re: (スコア:0)
一とーと−とか
Re: (スコア:0)
それよりユニコードを御覧じろ。
https://hydrocul.github.io/wiki/blog/2014/1101-hyphen-minus-wave-tilde.html [github.io]
Re: (スコア:0)
ユニコードの最初の方針は「日本と中国と台湾の似ている形の漢字は全部まとめてしまえ」だったのにね
Re: (スコア:0)
65000字もあるんだから、コードポイントはじゃんじゃん使おう、似てる文字でも意味が違うものは別コードでね
というのがユニコードのもともとの方針です
なので欧米人の使う文字がユニファイされることはありません
Re: (スコア:0)
Wikipediaの記述を信じるなら32bitのISO 10646は別コードを予定していましたが16bitの初期Unicodeは元から統合漢字を前提としていたようです。ISO 10646がUnicodeに合流したせいでややこしい事になっていますが。
Re: (スコア:0)
アルファベット領域においては積極的にコードポイントを分けるという思想で貫徹されている
Re: (スコア:0)
Han Unification を決めたのは欧米人じゃなくて当の日中韓のメンバーによるワーキンググループじゃなかったっけ。
実際のところ共通する文字、例えば「一」とかを日中(簡体/繁體)韓で分けちゃうと古典とか悲惨なことになるし現代の新聞記事すら引用したり検索したりするときに変換が必要なことになって不便きわまりなくなるからね。
ギリシャ字のΑとローマ字のAみたいに見た目は似ていても使われ方がはっきりわかれているのとは違い、間違いなく同じ字だから同じコードを割り当てただけだ。
Re: (スコア:0)
こういう例 [kyoto-u.ac.jp]を見ると実際それも怪しいような。
そりゃ人間が分類したんだからミスはあるでしょうが、ちょっとねぇ。
Re: (スコア:0)
違います。
unified ideographs なんて概念まで作り出すくらいに同じだけど字形が違う物も、同じ文字として扱うって方針でした。
個人的にも統合できませんって反対する活動もしてたました。
極初期のころでも 6万文字程度では、とうてい足りないのは欧米圏の人も理解してましたので、その頃でも余ってるという認識は一般的じゃないですよ。
Re: (スコア:0)
俺たちは無尽蔵に使うけどなHAHAHAというだけの話
Re: (スコア:0)
結局、後になって絵文字にドハマリ…。
Re: (スコア:0)
「○○丁目1ー3」とか恥ずかしいよね。
ゴシック体だと区別がつかないことが多々あるので、住所の入力フォームは明朝体にしてほしい。
Re: (スコア:0)
別に日本語に限った話じゃないでしょ?
O0とかlI!|とかウムラウトとかアクサンとか。
Re:日本語の欠陥のひとつ (スコア:1)
そりゃそうだ
O0とillとかはアルファベットの欠陥の一つでしょ
Re: (スコア:0)
O0とillとかはアルファベットの欠陥の一つでしょ
数字の0はアルファベットに含まれるのか?
アラビア数字(別の体系の文字)を混ぜて使ってるからでは。
СССР(キリル文字) は CCCP と紛らわしいが、欠陥というわけではない。
# まあ、紛らわしくない数字の文字を、人工的に作っても良いとは思う。
# 普及するとは限らないが
Re: (スコア:0)
# まあ、紛らわしくない数字の文字を、人工的に作っても良いとは思う。 # 普及するとは限らないが
スラッシュド・ゼロはそれなりに普及してましたね。
あと、大字も必要なところでは使われます。ま、あれは紛らわしさを防ぐというよりは改ざん防止ですが。
Re: (スコア:0)
以前SMS認証込みで携帯電話のSMSにユーザーIDと初期パスワードが送られてきたことがあったのだが、そのユーザーIDがこともあろうに
大文字I(アイ)小文字l(エル)大文字I(アイ)+数字5桁(つまり、IlI12345みたいな)
だったことがあって、さらにその時のフォントがIとlの区別がつきにくいうえにSMSなんで転送もすぐにできずに結局問い合わせで電話した記憶が。
Re: (スコア:0)
とりあえず日本ディスりたい人かな?
その文化が使う文字が多ければ多いほど、似た形が増えるのは
欠点でも欠陥でもなく、ただの必然。
そもそも二とニ、あるいは=だろうと形が同じなら
それぞれを厳密に区別する必要などないんだよ。なぜなら、
人間はコードポイントでなく字形と文脈で判断しているのだから。
すなわち欠陥を持っているのは、
字形でなくコードポイントで文字を扱う計算アルゴリズムそのものだ。
いずれ画像認識や言語要素解析処理が発達すれば
本来の文字の用途のとおり正しくコンピュータも字形と文脈で
文字を扱えるようになるだろう
Re: (スコア:0)
>人間はコードポイントでなく字形と文脈で判断しているのだから。
「ミレニアル」を「ミレ二(2)アル」と書くサイトが多すぎ【気になって眠れない】
と訴える人は人間ではない、と。
Re: (スコア:0)
それはPCかスマホだからでしょ。
印刷して紙にして読めば日本人の99.99%は違いがあることも気づかないだろう。
人類はずっと手書きの癖のある文字をずっと読み続けてきたんだぞ。
たかがニごときの小さなこと気にして眠れなくなる人間が居たとしたら
山ほどある字形違いを目にしてとっくに不眠症で「仏」になってるさ。
Re: (スコア:0)
その場合、実際に検索に引っかからないなどの弊害が出るからじゃない?
#3316479のいう、「コードポイントで文字を扱う計算アルゴリズム」の欠陥の問題。
Re: (スコア:0)
日本語でも50音というシステムは感動したし好きだぞ
必然であっても欠点になりうる
Re: (スコア:0)
欠点≠欠陥
Re: (スコア:0)
でもヘとへはさすがに擁護できない
Re: (スコア:0)
そうじゃなくて、それは同じものなんだよ。
ひらがなとカタカナとで字形を分ける必要なんて本当はないんだ。
よく考えてみ。じゃあカタカナの「ヘ」の字形を仮に「〆」に変えたとしよう。
なんかいいことある?嬉しがるのはコードポイントなんてものを使うコンピュータだけさ。
人間にとっては、あえて区別するメリットなんて実は何一つないんだよ。
Re: (スコア:0)
「区別あるよ」と「区別アルヨ」は同じですか?
Re: (スコア:0)
音声読み上げ機能を必要としている方には大変不便でしょうね。
認識ソフトが誤字を自動判断してもいいんでしょうけど、今度は誤判断の問題も出てきちゃう。
それはフォント側の問題では? (スコア:0)
特に濁音・半濁音は本来似てないでしょ。
Re: (スコア:0)
モニタの解像度の問題のほうが大きいんじゃないですかね。
最近では4KモニタとかRetinaディスプレイなんかによって解決されつつあるが。
Re: (スコア:0)
解像度がいくら良くなっていても無理
目が悪くなってきたらわかるよ
Re: (スコア:0)
1と2が似るなんてことは普通のフォントじゃありえないのでは?
でも濁音・半濁音が判別しにくいのは山ほどあるでしょう
Re: (スコア:0)
「5432l」はJavaパズラーにも出てたっけな。
#ところで#はシャープ?ハッシュ?
#007は「だぶるおーせぶん」って読むんだっけ?
Re:それはフォント側の問題では? (スコア:1)
ナンバーだと。
♯(シャープ)は縦棒が垂直で横棒がななめだよ。
Re: (スコア:0)
イゲタ
Re: (スコア:0)
プッシュホンの星印はどれだ: ※*⚹*
0157 (スコア:0)
O157が0157となっているのはよく見る。
Re:0157 (スコア:4, おもしろおかしい)
北海道に焼肉やら海鮮やらがそこそこ美味しい街があるのですが、お店の電話番号にことごとく0157が含まれていて困ります
Re: (スコア:0)
日本人は0517も美味しく頂いてしまうほど食への執着は凄まじいのです。
Re: (スコア:0)
人間ドッグとかベットで寝るとかバトミントンとか。
潰れたフォントだとベットとペットは判別しにくいですね。
ベットと一緒にペットで寝るとか。
正しくは、人間ドック、ベッド、バドミントンです。
Re: (スコア:0)
「Tバックで紅茶を入れる」
「それ、ティーパックの間違いだろ?」
#ティーバッグ(BAG)です。 https://www.amazon.co.jp/dp/B00D13G6ZG/ [amazon.co.jp]
##バグ出し 5963
Re: (スコア:0)
そんな下らねーコトは気にしないビックな男になってやるぜー
# 家電量販店にでも務めるつもりか?
Re: (スコア:0)
ピッグな男になるのがせいぜいだろう。
Re: (スコア:0)
漢字を崩して使っていた文字のうち多数派として生き残ったのが今の形だから欠陥だと言ってもしょうがないよ。
そもそも、文字コードが絡まなければ実用上は何の問題もないし。
Re: (スコア:0)
例の「暴 カニ男」も同じ原因ですね
Re: (スコア:0)
フォントのせい
さらにいうとMSP明朝のジャギーしまくりで濁点と半濁点すら判別できない字体がわるい
よくあれを間違えずに読める人はある意味すごい