[haskell]UTF8へのencode

UTF-8へのエンコードは2種類ある。

module Main (main) where
import qualified Codec.Binary.UTF8.String as US

main = do
	s < -getContents
	print $ US.encode s
	print $ US.encodeString s

module Main (main) where

import qualified Codec.Binary.UTF8.String as US

main = do

s < -getContents

print $ US.encode s

print $ US.encodeString s

$ ./main 
あ[227,129,130]
"\227\129\130"

$ ./main

あ[227,129,130]

"\227\129\130"

Prelude> :m + Codec.Binary.UTF8.String
Prelude Codec.Binary.UTF8.String> :t encode
encode :: String -> [GHC.Word.Word8]
Prelude Codec.Binary.UTF8.String> :t encodeString
encodeString :: String -> String
Prelude Codec.Binary.UTF8.String>

Prelude> :m + Codec.Binary.UTF8.String

Prelude Codec.Binary.UTF8.String> :t encode

encode :: String -> [GHC.Word.Word8]

Prelude Codec.Binary.UTF8.String> :t encodeString

encodeString :: String -> String

Prelude Codec.Binary.UTF8.String>

どちらもUTF-8のコード並びに変換されるが、encodeはWord8、encodeStringはStringの配列に格納される。

最初のStringはUnicodeスカラ値でUnicodeの文字集合全体を扱える。encodeStringはUTF-8にencodeするけれど、Stringに格納するのは混乱がでるかな。できればStringはUnicodeスカラ値のクラスとして統一してほしいところ。

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

[haskell]UTF8へのencode

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル