[Squeak-ja: 2655] 日本語のUTF-8

2005年 9月 23日 (金) 09:33:54 JST

横川です。
UTF-8で書いた日本語をSqueakで読む方法を個人メールで聞いたのですが、情報
共有のため流します。


> 山宮です。
> 
> UTF-8 自体には「日本語である」という情報が無いので日本語に出来ません。
> なので例えば
> ((FileStream readOnlyFileNamed: 'UTF8.txt') converter: UTF8TextConverter new) contents collect: [:c | (Character leadingChar: JapaneseEnvironment leadingChar code: c charCode)]
> のように一つ一つの文字に「日本語である」と明示的におしえてあげ
> なくてはなりません。(もっと探せばスマートな方法があると思います。)
> 
> Koji Yokokawa wrote:
> > 横川です。
> > SqueakのMultilingualとLocaleについて教えてください。
> > (詳しいお二人に出してます。)
> > 
> > Squeak3.8でLocaleをenなどにしているとUTF-8で書いた日本語の内部表現
> > <WideString>がShift-JISなどと異なるのですが、どうしてですか?
> > あらかじめLocaleをjaにしておくと一致するのですが、UTF-8で読んだ日本語文
> > 字をLocaleに左右されずに常にShift-JISやEUC-JPと一致させるにはどうすれば
> > よいのか悩んでます。
> > 
> > 具体的には同じ文字をUTF-8とShift-JISで書いたファイルを用意して以下を実行
> > するとイメージのLocaleによらず常に同じになることを期待してたのです。
> > 
> > ((FileStream readOnlyFileNamed: 'UTF8.txt') converter: UTF8TextConverter
> > new) contents 
> > = 
> > ((FileStream readOnlyFileNamed: 'SJIS.txt') converter: ShiftJISTextConverter
> > new) contents


-- !
Koji Yokokawa <koubo2005 ＠ yengawa.jpn.org>
    self new!