際際滷

際際滷Share a Scribd company logo
2
Most read
?? ?? ??? ?? ?? ??? ??? ??? ???

                              ??? ?? ?? ??? ??
                                                          O
                                     ???, ??? ? ???
                  heewon@yahoo-inc.com, dhuang@yahoo-inc.com, rim@nlp.korea.ac.kr

      Analyzing of Hangul Search Query Spelling Error Patterns and Developing Query

                       Spelling Correction System Based on User Logs.
                                                          O
                              Hee-Won Jeon, Daniel Huang Hae-Chang Rim
                          YST Web Search-Yahoo!, Search-Yahoo!, Korea University

                                                 ?    ?
          ? ??? ?? ??? ?? ?? ??? ? ?? ??? ?? ?? ???(query) ?? ???? `?
         ?!¨?? ???? ??? ?? ?? ?? ??? ??? ??? ???? ??? ??? ?? ????
         ?? ??? ?? ??. ? ?? ???? ?? `??! ???¨? ???? ???, ??? ??? ???
         ??? ???? ? ?? ?? ??? ???? ????? ???? ??? ???? ??? ?? ??
         ? ??? ??? ?? ?? ???? ??? ??? ????.



    ???: ??, ???, Speller, Query

                                                      ? ??? ??? ????? ???[4]. ???? ? ?
1. ??                                                 ??? ?? ??? ??? ?? ?? ?? ????
 ???? ?? ??? ?? ? ?? ???? ???[1].                     (confusion matrix)? ?????. ? ???? ?? ??
? ??? ???(typographical) ??? ??? ?? ?                 ?? ??? ??(Bayesian noisy channel) ??? ???
??? ???? ??? ? ????1). ?? ?? '?',                     ? ??? ?? ?? ??? ?? ??? ??? ? ?
`?¨? ? ??? ??? ?? ??? ??? ???                         ? ???.
                                                      [5]??? ? ?? ??? ??? ??? ??? ???
??? ?? ? ? ?? ??? ????. ? ?? ??
? ??(cognitive) ???? ??? ??? ??? ??                   ? ?? ??? ???? ??? ????. ?? ??
??? ???? ????. ?? ?? '?'? `?¨?                        ?? ?? ??? ?? ??? ???? ?? ?? ??
??? ??? ???? ?? ?? ??(phonetic) ??                    ?? ??? ??? ?? ??? ???? ??? ??
? ?? ??? ? ??? ? ? ??.                                ??.
?? ?? ????? ???? ????? ??? ??                         ????? ??? ???? ?? ??????? ??
??? ?? ? ? ?? ?? ?? ????. ?? ??                       ? ???? ??? ?? ???(query)? ?? ???
? ???? ? ?? ?? ????[2]? ?? ????                       ??? ??? ???? ????? ? ??? ?? ?
???? ?? ???? ??? ???? ? ??? ?                         ??. ??? ??? ??? ??? ??? ??? ??
?? ? ?? ????(edit distance)? ?? ?? ??                 ??? ?? ??, ??? ??? ??? ??? ???
?? ??? ? ?? ?? ??? ?? ???? ???                        ? ??? ????? ????? ?? ?? ??? ?
????? ??? ????. ??? ? ????? ?                         ???. ? ??? ??? ??? ??? ??? ???
? ?? ????? ????? ?? ? ??? ???                         ???[6].      ?    ?????    ????     ?????
?? ?? ??? ???? ??? ????? ????                         (Levenshtein) ?? ??? ???? ??? ???? ?
??? ??? ???.                                          ?? ?? ?? ??? ????? ? ?? ???? ?
??? ?? ?? ???? ??? ??? ?? ???                         ?? ??? ??? ??? ??? ?? ???? ??
? ??? ?? ????? ??????[3] ? ????                       ??? ??? ????? ????.
? ?? ??(insertion), ??(deletion), ??(substitution)    ? ??? ??!? ?,? ??? ?? ?? ???? ?
??? ??? ???? ???? ???? ??? ??                         ? ?? ?? ?? ??? ??? ??? ???? ??
? ???. ?? ?? ??? ??? ??? ?? ??                        ?? ?? ????? ?? ?? ????. ? ????
? ???? ?? ?? ?? ?? ??? ???? ??                        ???? ??? ?? ??? ????? ??? ???
                                                      ?? ??? ??? ??(features)? ???? ????
                                                      ? ??? ? ? ???.
1) ???? ?? ???? ??? ???? ???? ?????.                  ??? 2???? ?? ????? ??? ??? ??
?? ??? ????? ???. ?? ?? ??? ?                        ??? ??? ?? ??? ????.
???? ???? ?? ?? ???? ???? ???                        ?? <??1>?? ?? ?? ??, 1? ?? 2?? ??
?? ????? ??? ????? ?? ???? ??                        ? ???? ???? ?? ??? ???? ????
???? ?????. ??? 3???? ??? ?? ?                       ?? ? ? ??.
? ???? ?? ????? ??? ?? ??? ??
?? ?? ???? ????(error model),????
(language model)? ?????.
? ?????? ? ? ???? ??? ???? ??
??? ???? ??? ??????, ?? ?? ??
? 3??? ????? ???. 4???? ???? ?
?? ??? ????? ??? 5???? ?? ?? ?
???? ???? ??? ????? ???.

2. ?? ???? ??
 ? ??? ???? ?? ???? ?? ???? ??
? ?? ?? ????? ????? ???? ????
? ????? ???. ????? ???? ?????
?? ???? ???? ?? ????? ?? ? ??
? ?? ???. ? ????? ?? ?? ?? ??! ?
?? ?? ????? ??? ????? ?? ?? ?
??? ??? ? ??(990,140)?? ???? ????
?? ???? ??? ??? ??.
??? ??? ???? ??? ?? ??? 15? ??
? ????? ???(outlier)? ???? ????? ?
????, 15? ?? ??? ????? ???? 1% ?                        ??1.??/?? ??? ?? ?? ?????
?? ????.
                                                     2? ??? ??? ?? ???? ?? ??? ????
                                                     56%? ?????, ???? n-gram ?? ??? ??
2.1 ??? ??
                                                     ? ?? ??? ?? ?? ??? ? ? ??? ?? ?
 ?? ???? ??? ??? ?? ??? ?????
                                                     ?? ? ??.
?? ???? ????. ??? ?? ??? ?? ??
                                                     ?? ???? ???? ?? ???? ?? ?? ??
???? ??? ?? ???? ?? ???? ???
                                                     ???? <??1>? ??. ?? ?? ??[7]?? ???
?.
                                                     ????? ???? ?? ??? ????? ??? ?

  ??       ??      ??/?     ??      ??        ?      ? ??? ??? ???(? ????? 80% ??? ?
                   ? ??                              ??? ? ?? ????? ????), ?? ?????
 880,172 35,194    42,880   3,963   27,864 990,073   ? ? ?? ???? ???? ?? ???? ???
 88.90% 3.56%      4.33%    0.40%   2.81% 100%       33%? ???? ?? ?? ? ? ???.
                  ?1. ??? ??
                                                     2.3 ?? ???? ?? ??
<?1>?? ?? ?? ?? 89%? ???? ?? ???                      ?? ?? ??? ???? ? 89%? ???? ??
??. ?? ??? 4%??? ???? ?? ?????.                      ???? ?? ??? ??? ??? ????. ?? ?
`??¨ ??? ?? ????? ?? ?? ? ?? ?                       ??? 3??? ?? ????? ??? ?? ??? ?
?? ??? ??? ????? ????, ? ????                        ???, ?? ??? ?? ??? ??, ?? ?? 2,252
? ???? URL ????? ???? ??? ?? ?                       ?? ???? ???? ??? ????.
? ???.                                               ?? ??? ??? ??.
?? ?? ??? ??? ??? ??? ?? ??? ?
? ?? ??? ?? ???? ??? ?? ?? ???                       1) ??, ??? ?? ?????(keystroke)? ?? ??
?? ?? ??? ? ??? ?? ? ??? ????                        ?.
??.                                                  2) ??? ???? ?? ?? ??? ????.
                                                     3) ?? ?? ?? ???? ???? ??? ??? ?
2.2 ?? ??? ??                                        ???? ??, ??, ?? ??? ??? ?? ????
                                                     ??? ???.
 ? ???? <?1>?? ??? ?? ????? ???
??? ??? ??? ??? ??? ???. ??? ?
                                                     1)?? ?? ??? ?? ???? ?? ???? ??
??? ??? ?????? ??? ??? ????.                        <??3>? `?? 1? ???? ??¨?? ?? ??
??? ?? ???? ?? ?? ??????? ??                        ?? ???(84%)? ??? ?????? ? ? ??.
?? ???? ??? ??? ??? ???(Divider)?                   ?? 2? ??? ?? ??? ?? ??? ?? ???
? ??? ? ?? ?? ???? ?? ??? ???                       ?? ?? ??? ?? ?? ?? ? ? ??.
?. ?? ?? ^??? ̄? ^?? ̄? ?? ????                       ? ?????? ?? ?? ?? ????? ?? ??
?? ??? ??? ?? ?????. ?? 1? ???                      ??, ???? ?? ???? ?? ??? ?? ???
??? ^d~i~gn~ ̄? ^di~gn~ ̄? ????. ??? ?                ??? ??? ??.
???? ???? ?? 1?? ?? ??? ???? ?                      ?? 2.1??? ??? ??? ?? ??? ??? ??
?. ?? ?? ?? ??? ?? ??? ?? 1? ??.                    ????? ?? ???? ?? ?? ??, ??, ??
??? ???? ?? ? ??/?? ??? ?? ???                      ??? ????? ??? ??? ??? ?????.
??? ?? ??? ?? ? ?? ??? ????? ?                       1800
??. ?? ???? ??/?? ???? ?? ??? ?                      1600
?? ????? ?? ?? ????? ??? ????                        1400

?? ??? ??? ? ???? ?? ??? ?? ??                       1200
                                                     1000
? ? ????? ???? ???? ???? ?? ?                                                       ??
                                                      800
?? ?? ?? 1? ????.                                                                   ??
                                                      600
                                                                                    ??
                   ?? ?? ??/?? ?????                  400
        2000                                          200
        1800
        1600                                            0
        1400                                                ?? ??   ???   ??   ??
        1200
   ??   1000
         800                                         ??4. ?? ?? 1? ????? ?? ??? ??
         600
         400                                                      ?? ??
         200
                                                      500
           0
                                                      450
               1     2    3      4      5   6   7
                                                      400
                              ???? ??
                                                      350
                                                      300
 ??2. ?? ??? ???? ??/?? ?????                         250                           ??
                                                      200                           ??

<??2>?? ???? ?? ?? 1? ?? ?? ???                       150                           ??
                                                      100
?? ??? 83%? ???? ?? ? ? ??. ???                        50
??? ?? ??? ?? ?? ?? ??? ?? ??                           0
????? ??? ?? 0.03642? ??? ???? ?                            ?? ??   ???   ??   ??

? ??? ??? ?? ?? ??? ??? ??? ??
? ?? ????. ???? ? <??2>?? 95%? ??                     ??5. ?? ?? 2 ??? ????? ?? ???
?? 2?? ?? ?? ??? ??? ?? ???? ?                                   ?? ?? ??
?? ????? ???? ??? ??? ??? ? ?                       <??4>?? ?? ?? ?? 99% ??? ??? ??
?? ???.                                             ?? ?? ???? ? ? ??? <??5>?? ?? ?
???? ???? ???? ? ?? ?? ??? ??                       ? 2??? ???? ???? ??? ??? ??? ?
? ????? ?? ???? ??? ?? ??? ??                       ? ??. ?? ^??? ̄? ?? ^?? ̄? ????
? ??? ??.                                           ?? ????? ??? ???? ???? ??? ??
                                                    ?? ???? ???? ??? ??? ??? ?? ?
                                                    ? ???? ? ??? ?? ????? ?? ????
                                                    ??.
                                                    ???? ?? ????? ?? ?? ??? ??? ?
                                                    ? ?????, ???? ?? ?? ??? ?? ???
                                                    ?? ???? ?? ????? ????? ???.
                                                    ?? <??6>? ?? `?¨,`?¨ ??? ?? ??
                                                    ??? ?? ???? ? ? ??. ??? ? ?? ??
                                                    ?? ??? ?? ???? ????? ?? <?2>? ?
                                                    ? ??? ? ??. ?? ? ? ??? ??? ?? ?
                                                    ?? 1? ??? ??? ? ? ?? ??? ?? ??
                                                    ??? ??? ??? ??? ??? ??? ?? ??
           ??3. ?? 1, 2? ???? ??                    ? ??? ???? ?? ?????.
??? ???? ?? ?? ???? ??? ?? ??
                                            ? ??? ??? ??? ??.
                                                                    絳 遯 罟 絳 
                                                        絳 遯                  (1)
                                                                        絳 
                                            ? ??? v? ?? ???? ???? w? ??? ?
                                            ?? ???? ????. ?? ?? ??? ??? ??
                                            ? ?? ?????? ???? ??? W? ??? ?
                                            ?? ??? ? ??.
                                                         arg妛分甃  絳潛遯 罟 絳  (2)
                                             (1)??? ??? ???? P(v)? ?? w????? ?
                                            ?? ???? ??? ??? ? ??? ?? (2)?? ?
        ??6. ?? ??? ?? ??(??) ???           ? ??? ? ??.
                                             絳潛遯 ? ???? w? ????? v? ??? ? ??
 ??      ??      ????    ????   ?????   ? ????? ???? ????. ??? P(w)? ???
 ??      ??                                 ?? ??? ? ?? ???.
 T(?)    t(?)     0.9875      O
 b(?)    n(?)     0.8974      O        O
                                            3.1 ?? ??(Error Model)
 o(?)    p(?)     0.8908      O        O
 E(?)    x(?)     0.8000      O              ? ??? v, w? ??? ??  絳 遯 ? ???? ?
 u(?)    j(?)     0.7826      O        O    ? ??? ? ??? v,w ? ??? ??? ?????
 i(?)    k(?)     0.7778      O        O    ???? ???.
 R(?)    z(?)     0.7647      O                                   絳 遯  『 オ 絳    (3)
 P(?)    p(?)     0.7647      O             ???? ?? ??? ??, ??, ?? ??? ???
 g(?)    d(?)     0.7619      O             ??? ?? ???? ???? ?? 2??? ????
 p(?)    o(?)     0.7246      O        O    ?? ???? ?? ?? ???? ???? ????
 y(?)    h(?)     0.7143      O        O    ??? ??? ? ? ?? ???.
 v(?)    q(?)     0.6111      O
                                            ??? ??? ?? ??? ??? ?? ??? ?? ?
 Q(?)    v(?)     0.5714      O
                                            ? ??? ??[8].
 c(?)    w(?)     0.5556      O
 t(?)    T(?)     0.5258      O                                オ 絳    log 螽 絳 罟        (4)
 z(?)    r(?)     0.5000      O              e? ???? ?? ??(c ★ _), ??(_ ★ c ), ??(c
 O(?)    o(?)     0.5000      O             ★ d)? ?? ??? ??? ????? ????. ??
 O(?)    P(?)     0.5000      O        O    ? ? ????? ?? ?? ???? ?? ??? ??
      ?2.  ?? ??  ?? 18?? ???           ?? ??.
<?2>?? ??? ??? ?? ?? ?? ? ?? 18?            ???? ?? ??? ???? ???(???)? ??
? ??? ??? ?? ?? ???? ????? ??               ??? ??? ? ? ??.
? ??????, ???? ??? ??? ??? ??                 絳 遯   ’  絳     絳   〜  絳   〜  〜  絳   (5)
? ??? ?? ???? ? ? ???(??? ???               ??? ??? ???.
??? ??? ?? ??? 1? ????? ????).                log   絳潛遯                                              (6)
                                              log   絳     log 螽 絳  罟    log   絳   
3. ??? ?? ??(Bayesian noisy channel)        (6)?? (4)?? ???? ??? ?? ?? ?? ? ?
 2?? ?? ?? ? ?? ????? ?? ???? ?             ?.
?? ? ???? ????? ?? ?? ??? ???                         log   絳 遯     オ 絳    (7)
?? ?????. ??? ??? ???? ??? ??               ??? ??? w,v ??? ??? ????? ??? ?
??? ????? ???? ?? ????? ????                ???? ??? ? ?? ???.
? ?? ??? ??? ???? ?? ??? ? ??.              ?? ?? ???? ???? ?? ?? ?? ????
? ?????? ????? ??? ???? ??? ?               ? ?? ??? ????. ?? ?? ???? ???
? ?? ??? ?????? ???? ??? ???                ?????? ???? ???? ?? ??? ????
?. ??? ?? ???? ??? ?? ?? ??? ?              ???? ??? ?? ?? ???? ????????
??? ?? ???? ???(ASCII) ???(0x41 ~ 0x7A)     ????? ???? ??? ????.
??? ???? ?? ????? ???? ??? ??
?? ????(Fullwidth) ??? ????(0xFF21 ~        3.1.1 ????? ???? ??? ??
0xFF5A). ??? 2??? ????? ??? ????             ??? ???? ?? ??? ??? ???? ???
????? ??? ???? ?????? ?????                 ?? ??? ?? ??? ??? ???? ???? ?
?? ? ??? ???? ???(~)? ?? ??.                ????, ?? ?? ??? ???? ??? ???
(query reformulation) ???? ??? ???? ???    ???? ??? ??? ???? ???? ?? ???
? ?? ??? ? ? ??[9][10].                    ??? ????? ??? ?? ????? ??? ??
????? ??? ?? ?? ?? ??? ???? [8]            ????.
?? ??? ???? ?? ???? ? ???? ??              ? ????? ???? ?? <??7>? ??.
?? ?? ??? ????? ???? ?????.
?? ????`??? ??? ??? ?? ???¨ ?
??? ???? ?? ???? ?? ????, ?? ?
?? ?? ??(Hadoop) ????? ?????.
??? ???? 1???? ???, ???? ???
(reformulated query), ?? ???? ??, ? ????
???? ??? ??? ??? ?? ??? ??? ?
? ? ???? ?? ???? ?? q? ????? ?
s? ??? ??? ???? ??? ???? ????
?? ? ??(  絳 遯 ???? ???). ??? q? s?
??? ???, ?? ?? ?? ??? ?? ??? ?
? ??, ??? ???? ??? ?? ??? ???
?? ??. ??? ?? ???? ??, ?? ?? ??                   ??7. <?3>? ???? ?? ???
? ?? ??? ??, ?? ???? ???? ????                         (x?: ??1, y?:??2)
?.

      ??      ??
                      ??1     ??2          3.2 ?? ??(Language Model)
      ??      ??
                                            P(w) ??? ??? ??? ????(unigram) ????
      o(?)    p(?)      3       1
                                           ? ????.
      p(?)    o(?)     10       2
      T(?)    t(?)      1       3
      b(?)    n(?)      2       4                                 絳 
                                                         絳           (8)
      m(?)    n(?)     40       5                                  
      t(?)    T(?)     15       6
      n(?)    m(?)     20       7
                                           ? ??? ?? ??? ???? ?? ? ??. N? ?
      j(?)    u(?)     97       8
      P(?)    p(?)      8       9          ? ??? ?? ???? C(w)? w ??? ??? ??
      n(?)    b(?)     31      10          ??? ?? ? ?? ???. ?? ??? ??????
      x(?)    e(?)     34      11          ???? ?? ???? ?? ?? ???? ????
      e(?)    x(?)     23      12          ? ???.
      k(?)    i(?)     77      13
      R(?)    r(?)     44      14
      j(?)    k(?)     42      15          4.??? ??
      z(?)    r(?)     16      16
      p(?)    P(?)     80      17
      r(?)    z(?)     45      18
      u(?)    j(?)      5      19
      h(?)    y(?)     123     20

?3. ??? ???? ?? ???? ?? ??? ??
  ?? ?? ?? ? ?? 20?? ?? ?? ??
(??1? ??? ?? ???? ???? ?? ??, ??2?
       ???? ????? ???? ???)

??? 1??? ???? ??? ?? ??? ????
???? ?? ???? ?? ??? ??? ?? ? ?
??(2.3?? ??? 2,252?? ???)? ??? ???                   ??8. ??? ??
? ?? ??? ???? ??? ???? ?? ???               ???? ??? ??? ? <??8>? ??? ? ??
? ???? ??? ??? ??? ????(Spearman)          ? ?? ??? ??? ??.
????[11] ??? ??? ????? ??? ???.
???? 250??? ?? ??? ?? ?? ?? ???            1) ??? ?? ???? ????? ????.
? ???? 0.507??? ?? ?? ????? ? ??
? ??? ??? ??? ? ???? ??? ????              2,3) ??? ???? ??? ???? ?? ???? ?
???? ????? ??. ???? ???? ? ??
??? ?? ??? ????.                              ACC   FSCO    PREC RECL FPOS  SERVICE
                                              .954   .560   .570 .551  .024   G?
4) ?? ????? ?? ?? ??? ?? ??? ??               .956   .554   .621 .499  .018    Y!
? ?? ???? ??? ?? ??? ?? ?????                +.002  -.006 +.051 -.052 -.006
?? ????. ???? ????? ???? ????                           ?5. G??? ?? ????
????, ?????? ?? ??? ???? ???                  (Y!? ? ??? ???? ???? ??? ????)
??? ?? ??? ???? ??? ??. ?????
??? ????? ???? ????(gradient boosted         <?5>?? ? ???? ???? ??? ??.
distributed decision trees)[12]? ?????.
                                                           坎洙岑悴朏曵岡略棯洙姙檪
5) ????? ??? ??? ??? ??? ????.                       !                      (9)
                                                            坎洙岑 洙略朏飭略
                                                                    
                                                     Κ蟹                     (10)
4)? ??? ?? ?? ??? ???, ?? ??? ??                             
?? ???? ???? ???? ?? ??? ?? ?                                  
                                                             葵鴎オ 鴎オ
??? ???? ??? ????. ??? ???? ?                               坎洙岑 悴朏曵 洙亂亂
                                                     葵鴎オ                     (11)
?? ???? ? ???? ?? ??? ???? ??                                 坎洙岑 洙亂亂
??? ???? ??? ??? ? ?? ?? ?? ??                               坎洙岑悴朏曵 洙亂亂
                                                     鴎オ                     (12)
??? ??? ???? ?? ???? ??. ?? ??                              坎洙岑 略略揖飭廳  洙亂
? ??? ?? ????? ????? ? ?? ???                               坎洙岑 分悠 洙亂亂
                                                     Κ葵                     (13)
???? ?? ??? ??? ??? ??? ???. ?                              坎洙岑 洙略朏飭略
?? ? ???? ???? ??? ????2).
                                             ? <?5>? ??? ??? ?? ? F-Score? ?? ??
5. ????                                      ?? ??? ??? ????. PREC? RECL? ???
 ?? ??? ?? ?? ???? ??? ???? ??               ?? ???? FSCO? ??? ????? ???? ?
??.                                          ??? ?? ?? -.006? ??? ???. ? ??? ?
?? ??? ???? ?? ?? ???? ?? ???                ?? G? ????? ? ??? ??? ?? ? ? ?
(stratified sampling) ???? ?? <?4>? ?? ???   ?. ??? G?? ?? ASCII?? ??? ????? ?
? ????? ?? ?? ??? ???? ?????                 ?? ??? ??? ????(PREC : -.112, RECL :
??? ?? ?? ????? ??? ??? ????                 -.324) ??? ? ?? ??? ?? ? ????? ??
???? ???? ?? ??? ???? ?????.                 ??? Y!? ???? ???(PREC : -.354, RECL:
? ??? ^?? ???? ̄? ???? ?? ???                 -.350). ??? 1,2,3?? ???? ???? Y!? G??
??? ??? ???? ?? ???? ??? ????                ?? ??? ??? ??? ?????.
? ????.                                      ?? Y! ???? ??? ??? ?? ?? ??? 96?
                                             (?????? : 194)? ??? ??? ??? ???.
                                             ???? ??? ?? 40?? ???? ?????? ?
       ?? ????? ???? ????                    ??? ???? ?? ???????. ?? ?? ??
       ??      ?    ???? ????                ??? ??? ????? 42%? ???? ??? ??
  ??? 10,142 37,277  34,886 2,391            ? ?? ?? ?? ??? ???? ?? ??????
  ???? 2,926 11,328  10,624  704             ? ? ???. ??? ??? ?? ??? ???? ?
                                             ?? ??? ?? ?? ?? ??? ?? ? ?? ??
             ?4. ???/????                    ?????.
                                             ??? ??? ???? ?? ???? ???? ???
??? ?? ?? ?????? ?? ??? ?? ??                ???, 14.9%? ?? ??? ???? ??? ?? ?
??? ?? ??? ? ??? ?? ??? G??? ?               ??? ???? ?? ????. ?? ?? ^????
??? ?? ???? ????? ???. G?? ??                ?? ̄?? ???? ??? ??? ^?????? ̄?
??? ????? ???? ?? ??? ?? ????                ??? ?? ????? ???? ???? ?? ^??
?? ?? ??? ??? ?? ?????, ??/?? ?              ? ̄? ^??? ̄? ??? ???? ?? ?? ???
??? ??? ? ??? ????? ?? ????^?                ?. ?? ???? ???? ?? ??? ?? ????
?? ?????? ̄?? ?? ?? ?? ???? ??                ? ??? ???? ???? ?? ?? ???? ??
??.                                          ???? ?? ??? ?? ?? ?? ????? ??
                                             ?? ??? ???? ??? ?? ?? ? ?? ??
2) ?? ??? ????? ??? ?? ?? ?? ???? ????       ??? ?? ? ?? ???.
?? ? ??? ?? ??? ??? ? ?? ????? ???.          ?? ?? ?? ??? ??? ??? ??? ??? ?
?? ????. ?? ?? ^?? ̄? ^dign ̄? ???                             [6] Brill, E. and Moore, R. An improved error model for
?? ??? ???? ????? ??? ???? ??                                noisy channel spelling correction. Proceedings of the
?? ?? ? ?? ???? ??? ?? ?? ???
                                                             38th      Annual      Meeting      of     the   Association      for
???? ? ??? ?? ???? ?? ??? ???
? ??? ????? ?? ??? ?? ?????. ?                               Computational Linguistics. 286 - 293. 2000.
?? ?? ??? ???? ??? ?? ???? ??                                [7]    Farooq    Ahmad,        Grzegorz   Kondrak.    Learning     a
? ??? ?????? ???(navigational queries)?                      spelling error model from search query logs. Human
???? ?? ??. ??? ?? ???? ?? ??                                Language Technology Conference. Proceedings of the
??? ????? ??? ???? ??? ??? ?
                                                             conference       on   Human        Language     Technology       and
? ?? ???.
                                                             Empirical      Methods    in    Natural    Language    Processing.
6. ?? ? ?? ????                                              Vancouver, British Columbia, Canada. 955 - 962. 2005
 ? ????? ???? ???? ?? ???? ??                                [8]    Ristad, E. and Yianilos, P.          Learning string edit
? ??? ?? ??? ??????. ??? ?? ??
                                                             distance. IEEE Transactions on Pattern Analysis and
?? ??? ???? ???? ?? ?? ???? ?
                                                             Machine Intelligence. 20(5):522-532. 1997.
?? ???? ??? ????? ?? ??? ???
? ??? ??? ????? ??? ? ? ???. ?                               [9]    Boldi, P.; Bonchi, F.; Castillo, C.; Vigna, S. From
? ????? ??? ?? ???? ??? ?? ??                                'dango' to 'japanese cakes': Query Reformulation Models
??? ??? ??? ???? ?? ??? ?????                                and Patterns. Web Intelligence, IEEE Cs Press, Milan,
????? ? ??? ?? ????? ??? ? ? ?
                                                             Italy (2009)
?? ?? ????. ?? ?? ???? ??? ???
? ?? ??? ?? ?? ??? ?? ?? ?? ??                               [10] Brill, E. and Cucerzan, S. Spelling correction as an
????? ????? ? ? ?? ??? ???? ?                                iterative process that exploits the collective knowledge
?? ?? ??? ? ???.                                             of web users. Proceedings of EMNLP 04. 293-300. 2004.
??? ??? ??? ???? ???? ?? ???
???? ???? ?? ??? ?? ???, ?? ??
                                                             [11]
                                                             http://en.wikipedia.org/wiki/Spearman's_rank_correlation_c
? ??? ?? ?????? ??? ????? ??
? ? ????, ??? ???? ?? ??? ???                                oefficient
??? ?? ?? ??? ???? ??? ?? ???                                [12]    Jerry Ye, Jyh-Herng Chow, Jiang Chen, Zhaohui
?? ?? ??? ???. ??? ?? ?? ?? ??                               Zheng. Stochastic gradient boosted distributed decision
??? ?? ??? ?? ?? ??? ??? ?? ??
                                                             trees.    Conference      on      Information   and    Knowledge
? ???.
                                                             Management. Proceeding of the 18th ACM conference
                         ????                                on Information and knowledge management. Hong Kong,
                                                             China. Poster session 8: IR track. 2061-2064. 2009
[1]   Kucich, K.   Techniques for automatically correcting
words in text. ACM Computing Surveys. 24(4):377-439.
1992
[2]   Damerau, F. A technique for computer detection
and correction of spelling errors. Communications of the
ACM. 7(3):171-176. March 1964
[3]   Wagner, R. and Fischer, M. The string to string
correction problem. Journal of the ACM. 21(1):168-173.
January 1974.
[4] Kernighan, M., Church, K., and Gale, W. A spelling
correction program based on a noisy channel model.
Proceedings of COLING 1990. 205-210. 1990.
[5]    Ristad, E. and Yianilos, P. Learning string edit
distance. IEEE Transactions on Pattern Analysis and
Machine Intelligence. 20(5):522-532. 1997.
Ad

Recommended

[224] ?????? ????? ?????_?????_?????_???????
[224] ?????? ????? ?????_?????_?????_???????
NAVER D2
?
Text classification-php-v4
Text classification-php-v4
Glenn De Backer
?
Word Sense Disambiguation and Induction
Word Sense Disambiguation and Induction
Leon Derczynski
?
Natural language processing and transformer models
Natural language processing and transformer models
Ding Li
?
Nlp toolkits and_preprocessing_techniques
Nlp toolkits and_preprocessing_techniques
ankit_ppt
?
Nlp
Nlp
Hyderabad Scalability Meetup
?
Natural language processing (Python)
Natural language processing (Python)
Sumit Raj
?
Concepts of NLP.pptx
Concepts of NLP.pptx
Judesharp1
?
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
Daichi Kitamura
?
An introduction to the Transformers architecture and BERT
An introduction to the Transformers architecture and BERT
Suman Debnath
?
晩云Zモ`ラの隔ArgL g咄Z戻幣による岑gY(JSLS2015)
晩云Zモ`ラの隔ArgL g咄Z戻幣による岑gY(JSLS2015)
Kosuke Sugai
?
Tokenization using nlp | NLP Course
Tokenization using nlp | NLP Course
RAKESH P
?
Seq2Seq (encoder decoder) model
Seq2Seq (encoder decoder) model
煮磐 吊
?
Tokenization and how to use it from scratch
Tokenization and how to use it from scratch
Mahmoud Yasser
?
End-to-end Speech Recognition with Recurrent Neural Networks (D3L6 Deep Learn...
End-to-end Speech Recognition with Recurrent Neural Networks (D3L6 Deep Learn...
Universitat Polit┬cnica de Catalunya
?
Wordnet
Wordnet
Govind Raj
?
Dependency Parser, ?? ?? ???
Dependency Parser, ?? ?? ???
?? ?
?
Pycon2017 koreannlp
Pycon2017 koreannlp
Hyunjoong Kim
?
CS229 Machine Learning Lecture Notes
CS229 Machine Learning Lecture Notes
Eric Conner
?
Fine tune and deploy Hugging Face NLP models
Fine tune and deploy Hugging Face NLP models
OVHcloud
?
[ppt]
[ppt]
butest
?
Word2Vec
Word2Vec
hyunyoung Lee
?
Layout lm paper review
Layout lm paper review
taeseon ryu
?
word level analysis
word level analysis
tjs1
?
咄坿蛍x ゛DNN咄坿蛍xの児Aから恷仟室gまで゛ Tokyo bishbash #3
咄坿蛍x ゛DNN咄坿蛍xの児Aから恷仟室gまで゛ Tokyo bishbash #3
Naoya Takahashi
?
Language Detection Library for Java
Language Detection Library for Java
Shuyo Nakatani
?
Text similarity measures
Text similarity measures
ankit_ppt
?
Hunspell ??? ??? ??? ??
Hunspell ??? ??? ??? ??
Changwoo Ryu
?
[1D4]???? ??????? ?????? ???????? ????? Android Keyboard Service ???????
[1D4]???? ??????? ?????? ???????? ????? Android Keyboard Service ???????
NAVER D2
?

More Related Content

What's hot (20)

Concepts of NLP.pptx
Concepts of NLP.pptx
Judesharp1
?
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
Daichi Kitamura
?
An introduction to the Transformers architecture and BERT
An introduction to the Transformers architecture and BERT
Suman Debnath
?
晩云Zモ`ラの隔ArgL g咄Z戻幣による岑gY(JSLS2015)
晩云Zモ`ラの隔ArgL g咄Z戻幣による岑gY(JSLS2015)
Kosuke Sugai
?
Tokenization using nlp | NLP Course
Tokenization using nlp | NLP Course
RAKESH P
?
Seq2Seq (encoder decoder) model
Seq2Seq (encoder decoder) model
煮磐 吊
?
Tokenization and how to use it from scratch
Tokenization and how to use it from scratch
Mahmoud Yasser
?
End-to-end Speech Recognition with Recurrent Neural Networks (D3L6 Deep Learn...
End-to-end Speech Recognition with Recurrent Neural Networks (D3L6 Deep Learn...
Universitat Polit┬cnica de Catalunya
?
Wordnet
Wordnet
Govind Raj
?
Dependency Parser, ?? ?? ???
Dependency Parser, ?? ?? ???
?? ?
?
Pycon2017 koreannlp
Pycon2017 koreannlp
Hyunjoong Kim
?
CS229 Machine Learning Lecture Notes
CS229 Machine Learning Lecture Notes
Eric Conner
?
Fine tune and deploy Hugging Face NLP models
Fine tune and deploy Hugging Face NLP models
OVHcloud
?
[ppt]
[ppt]
butest
?
Word2Vec
Word2Vec
hyunyoung Lee
?
Layout lm paper review
Layout lm paper review
taeseon ryu
?
word level analysis
word level analysis
tjs1
?
咄坿蛍x ゛DNN咄坿蛍xの児Aから恷仟室gまで゛ Tokyo bishbash #3
咄坿蛍x ゛DNN咄坿蛍xの児Aから恷仟室gまで゛ Tokyo bishbash #3
Naoya Takahashi
?
Language Detection Library for Java
Language Detection Library for Java
Shuyo Nakatani
?
Text similarity measures
Text similarity measures
ankit_ppt
?
Concepts of NLP.pptx
Concepts of NLP.pptx
Judesharp1
?
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
Daichi Kitamura
?
An introduction to the Transformers architecture and BERT
An introduction to the Transformers architecture and BERT
Suman Debnath
?
晩云Zモ`ラの隔ArgL g咄Z戻幣による岑gY(JSLS2015)
晩云Zモ`ラの隔ArgL g咄Z戻幣による岑gY(JSLS2015)
Kosuke Sugai
?
Tokenization using nlp | NLP Course
Tokenization using nlp | NLP Course
RAKESH P
?
Seq2Seq (encoder decoder) model
Seq2Seq (encoder decoder) model
煮磐 吊
?
Tokenization and how to use it from scratch
Tokenization and how to use it from scratch
Mahmoud Yasser
?
End-to-end Speech Recognition with Recurrent Neural Networks (D3L6 Deep Learn...
End-to-end Speech Recognition with Recurrent Neural Networks (D3L6 Deep Learn...
Universitat Polit┬cnica de Catalunya
?
Dependency Parser, ?? ?? ???
Dependency Parser, ?? ?? ???
?? ?
?
CS229 Machine Learning Lecture Notes
CS229 Machine Learning Lecture Notes
Eric Conner
?
Fine tune and deploy Hugging Face NLP models
Fine tune and deploy Hugging Face NLP models
OVHcloud
?
Layout lm paper review
Layout lm paper review
taeseon ryu
?
word level analysis
word level analysis
tjs1
?
咄坿蛍x ゛DNN咄坿蛍xの児Aから恷仟室gまで゛ Tokyo bishbash #3
咄坿蛍x ゛DNN咄坿蛍xの児Aから恷仟室gまで゛ Tokyo bishbash #3
Naoya Takahashi
?
Language Detection Library for Java
Language Detection Library for Java
Shuyo Nakatani
?
Text similarity measures
Text similarity measures
ankit_ppt
?

Viewers also liked (6)

Hunspell ??? ??? ??? ??
Hunspell ??? ??? ??? ??
Changwoo Ryu
?
[1D4]???? ??????? ?????? ???????? ????? Android Keyboard Service ???????
[1D4]???? ??????? ?????? ???????? ????? Android Keyboard Service ???????
NAVER D2
?
???? ??? ?????? ????
???? ??? ?????? ????
?? ?
?
[211] ?????? ???????? ?????????????
[211] ?????? ???????? ?????????????
NAVER D2
?
DEVIEW 2013 - Git? ??? ?????
DEVIEW 2013 - Git? ??? ?????
NAVER D2
?
????? ??? ????(I)
????? ??? ????(I)
?? ?
?
Hunspell ??? ??? ??? ??
Hunspell ??? ??? ??? ??
Changwoo Ryu
?
[1D4]???? ??????? ?????? ???????? ????? Android Keyboard Service ???????
[1D4]???? ??????? ?????? ???????? ????? Android Keyboard Service ???????
NAVER D2
?
???? ??? ?????? ????
???? ??? ?????? ????
?? ?
?
[211] ?????? ???????? ?????????????
[211] ?????? ???????? ?????????????
NAVER D2
?
DEVIEW 2013 - Git? ??? ?????
DEVIEW 2013 - Git? ??? ?????
NAVER D2
?
????? ??? ????(I)
????? ??? ????(I)
?? ?
?
Ad

Similar to ?? ?? ??? ?? ?? ??? ??? ??? ??? ??? ?? ?? ??? ?? (20)

?? ???
?? ???
EunGi Hong
?
???_????_??????????????_??_20241011.pptx
???_????_??????????????_??_20241011.pptx
Wonjun Hwang
?
[2018 PyConKR] Dive Into ?????? - 2020?, ?? ?? ?? ????? ???? ?????
[2018 PyConKR] Dive Into ?????? - 2020?, ?? ?? ?? ????? ???? ?????
Song Sukree
?
<Little Big Data #1> ??? ?? ???? ???? ??
<Little Big Data #1> ??? ?? ???? ???? ??
Han-seok Jo
?
Elasticsearch? Bash script? ??? ?? ??
Elasticsearch? Bash script? ??? ?? ??
Younghun Go
?
???????? ??? ???_???_??_???
???????? ??? ???_???_??_???
?? ?
?
????06
????06
herojoon1378
?
??? ???? ???? ???
??? ???? ???? ???
Ted Taekyoon Choi
?
2206 Modupop!
2206 Modupop!
WarNik Chow
?
????? ?? ??? ?? ????? ?? ???????? ??? ? ??
????? ?? ??? ?? ????? ?? ???????? ??? ? ??
NAVER Engineering
?
Ad

?? ?? ??? ?? ?? ??? ??? ??? ??? ??? ?? ?? ??? ??

  • 1. ?? ?? ??? ?? ?? ??? ??? ??? ??? ??? ?? ?? ??? ?? O ???, ??? ? ??? heewon@yahoo-inc.com, dhuang@yahoo-inc.com, rim@nlp.korea.ac.kr Analyzing of Hangul Search Query Spelling Error Patterns and Developing Query Spelling Correction System Based on User Logs. O Hee-Won Jeon, Daniel Huang Hae-Chang Rim YST Web Search-Yahoo!, Search-Yahoo!, Korea University ? ? ? ??? ?? ??? ?? ?? ??? ? ?? ??? ?? ?? ???(query) ?? ???? `? ?!¨?? ???? ??? ?? ?? ?? ??? ??? ??? ???? ??? ??? ?? ???? ?? ??? ?? ??. ? ?? ???? ?? `??! ???¨? ???? ???, ??? ??? ??? ??? ???? ? ?? ?? ??? ???? ????? ???? ??? ???? ??? ?? ?? ? ??? ??? ?? ?? ???? ??? ??? ????. ???: ??, ???, Speller, Query ? ??? ??? ????? ???[4]. ???? ? ? 1. ?? ??? ?? ??? ??? ?? ?? ?? ???? ???? ?? ??? ?? ? ?? ???? ???[1]. (confusion matrix)? ?????. ? ???? ?? ?? ? ??? ???(typographical) ??? ??? ?? ? ?? ??? ??(Bayesian noisy channel) ??? ??? ??? ???? ??? ? ????1). ?? ?? '?', ? ??? ?? ?? ??? ?? ??? ??? ? ? `?¨? ? ??? ??? ?? ??? ??? ??? ? ???. [5]??? ? ?? ??? ??? ??? ??? ??? ??? ?? ? ? ?? ??? ????. ? ?? ?? ? ??(cognitive) ???? ??? ??? ??? ?? ? ?? ??? ???? ??? ????. ?? ?? ??? ???? ????. ?? ?? '?'? `?¨? ?? ?? ??? ?? ??? ???? ?? ?? ?? ??? ??? ???? ?? ?? ??(phonetic) ?? ?? ??? ??? ?? ??? ???? ??? ?? ? ?? ??? ? ??? ? ? ??. ??. ?? ?? ????? ???? ????? ??? ?? ????? ??? ???? ?? ??????? ?? ??? ?? ? ? ?? ?? ?? ????. ?? ?? ? ???? ??? ?? ???(query)? ?? ??? ? ???? ? ?? ?? ????[2]? ?? ???? ??? ??? ???? ????? ? ??? ?? ? ???? ?? ???? ??? ???? ? ??? ? ??. ??? ??? ??? ??? ??? ??? ?? ?? ? ?? ????(edit distance)? ?? ?? ?? ??? ?? ??, ??? ??? ??? ??? ??? ?? ??? ? ?? ?? ??? ?? ???? ??? ? ??? ????? ????? ?? ?? ??? ? ????? ??? ????. ??? ? ????? ? ???. ? ??? ??? ??? ??? ??? ??? ? ?? ????? ????? ?? ? ??? ??? ???[6]. ? ????? ???? ????? ?? ?? ??? ???? ??? ????? ???? (Levenshtein) ?? ??? ???? ??? ???? ? ??? ??? ???. ?? ?? ?? ??? ????? ? ?? ???? ? ??? ?? ?? ???? ??? ??? ?? ??? ?? ??? ??? ??? ??? ?? ???? ?? ? ??? ?? ????? ??????[3] ? ???? ??? ??? ????? ????. ? ?? ??(insertion), ??(deletion), ??(substitution) ? ??? ??!? ?,? ??? ?? ?? ???? ? ??? ??? ???? ???? ???? ??? ?? ? ?? ?? ?? ??? ??? ??? ???? ?? ? ???. ?? ?? ??? ??? ??? ?? ?? ?? ?? ????? ?? ?? ????. ? ???? ? ???? ?? ?? ?? ?? ??? ???? ?? ???? ??? ?? ??? ????? ??? ??? ?? ??? ??? ??(features)? ???? ???? ? ??? ? ? ???. 1) ???? ?? ???? ??? ???? ???? ?????. ??? 2???? ?? ????? ??? ??? ??
  • 2. ?? ??? ????? ???. ?? ?? ??? ? ??? ??? ?? ??? ????. ???? ???? ?? ?? ???? ???? ??? ?? <??1>?? ?? ?? ??, 1? ?? 2?? ?? ?? ????? ??? ????? ?? ???? ?? ? ???? ???? ?? ??? ???? ???? ???? ?????. ??? 3???? ??? ?? ? ?? ? ? ??. ? ???? ?? ????? ??? ?? ??? ?? ?? ?? ???? ????(error model),???? (language model)? ?????. ? ?????? ? ? ???? ??? ???? ?? ??? ???? ??? ??????, ?? ?? ?? ? 3??? ????? ???. 4???? ???? ? ?? ??? ????? ??? 5???? ?? ?? ? ???? ???? ??? ????? ???. 2. ?? ???? ?? ? ??? ???? ?? ???? ?? ???? ?? ? ?? ?? ????? ????? ???? ???? ? ????? ???. ????? ???? ????? ?? ???? ???? ?? ????? ?? ? ?? ? ?? ???. ? ????? ?? ?? ?? ??! ? ?? ?? ????? ??? ????? ?? ?? ? ??? ??? ? ??(990,140)?? ???? ???? ?? ???? ??? ??? ??. ??? ??? ???? ??? ?? ??? 15? ?? ? ????? ???(outlier)? ???? ????? ? ????, 15? ?? ??? ????? ???? 1% ? ??1.??/?? ??? ?? ?? ????? ?? ????. 2? ??? ??? ?? ???? ?? ??? ???? 56%? ?????, ???? n-gram ?? ??? ?? 2.1 ??? ?? ? ?? ??? ?? ?? ??? ? ? ??? ?? ? ?? ???? ??? ??? ?? ??? ????? ?? ? ??. ?? ???? ????. ??? ?? ??? ?? ?? ?? ???? ???? ?? ???? ?? ?? ?? ???? ??? ?? ???? ?? ???? ??? ???? <??1>? ??. ?? ?? ??[7]?? ??? ?. ????? ???? ?? ??? ????? ??? ? ?? ?? ??/? ?? ?? ? ? ??? ??? ???(? ????? 80% ??? ? ? ?? ??? ? ?? ????? ????), ?? ????? 880,172 35,194 42,880 3,963 27,864 990,073 ? ? ?? ???? ???? ?? ???? ??? 88.90% 3.56% 4.33% 0.40% 2.81% 100% 33%? ???? ?? ?? ? ? ???. ?1. ??? ?? 2.3 ?? ???? ?? ?? <?1>?? ?? ?? ?? 89%? ???? ?? ??? ?? ?? ??? ???? ? 89%? ???? ?? ??. ?? ??? 4%??? ???? ?? ?????. ???? ?? ??? ??? ??? ????. ?? ? `??¨ ??? ?? ????? ?? ?? ? ?? ? ??? 3??? ?? ????? ??? ?? ??? ? ?? ??? ??? ????? ????, ? ???? ???, ?? ??? ?? ??? ??, ?? ?? 2,252 ? ???? URL ????? ???? ??? ?? ? ?? ???? ???? ??? ????. ? ???. ?? ??? ??? ??. ?? ?? ??? ??? ??? ??? ?? ??? ? ? ?? ??? ?? ???? ??? ?? ?? ??? 1) ??, ??? ?? ?????(keystroke)? ?? ?? ?? ?? ??? ? ??? ?? ? ??? ???? ?. ??. 2) ??? ???? ?? ?? ??? ????. 3) ?? ?? ?? ???? ???? ??? ??? ? 2.2 ?? ??? ?? ???? ??, ??, ?? ??? ??? ?? ???? ??? ???. ? ???? <?1>?? ??? ?? ????? ??? ??? ??? ??? ??? ??? ???. ??? ? 1)?? ?? ??? ?? ???? ?? ???? ??
  • 3. ??? ??? ?????? ??? ??? ????. <??3>? `?? 1? ???? ??¨?? ?? ?? ??? ?? ???? ?? ?? ??????? ?? ?? ???(84%)? ??? ?????? ? ? ??. ?? ???? ??? ??? ??? ???(Divider)? ?? 2? ??? ?? ??? ?? ??? ?? ??? ? ??? ? ?? ?? ???? ?? ??? ??? ?? ?? ??? ?? ?? ?? ? ? ??. ?. ?? ?? ^??? ̄? ^?? ̄? ?? ???? ? ?????? ?? ?? ?? ????? ?? ?? ?? ??? ??? ?? ?????. ?? 1? ??? ??, ???? ?? ???? ?? ??? ?? ??? ??? ^d~i~gn~ ̄? ^di~gn~ ̄? ????. ??? ? ??? ??? ??. ???? ???? ?? 1?? ?? ??? ???? ? ?? 2.1??? ??? ??? ?? ??? ??? ?? ?. ?? ?? ?? ??? ?? ??? ?? 1? ??. ????? ?? ???? ?? ?? ??, ??, ?? ??? ???? ?? ? ??/?? ??? ?? ??? ??? ????? ??? ??? ??? ?????. ??? ?? ??? ?? ? ?? ??? ????? ? 1800 ??. ?? ???? ??/?? ???? ?? ??? ? 1600 ?? ????? ?? ?? ????? ??? ???? 1400 ?? ??? ??? ? ???? ?? ??? ?? ?? 1200 1000 ? ? ????? ???? ???? ???? ?? ? ?? 800 ?? ?? ?? 1? ????. ?? 600 ?? ?? ?? ??/?? ????? 400 2000 200 1800 1600 0 1400 ?? ?? ??? ?? ?? 1200 ?? 1000 800 ??4. ?? ?? 1? ????? ?? ??? ?? 600 400 ?? ?? 200 500 0 450 1 2 3 4 5 6 7 400 ???? ?? 350 300 ??2. ?? ??? ???? ??/?? ????? 250 ?? 200 ?? <??2>?? ???? ?? ?? 1? ?? ?? ??? 150 ?? 100 ?? ??? 83%? ???? ?? ? ? ??. ??? 50 ??? ?? ??? ?? ?? ?? ??? ?? ?? 0 ????? ??? ?? 0.03642? ??? ???? ? ?? ?? ??? ?? ?? ? ??? ??? ?? ?? ??? ??? ??? ?? ? ?? ????. ???? ? <??2>?? 95%? ?? ??5. ?? ?? 2 ??? ????? ?? ??? ?? 2?? ?? ?? ??? ??? ?? ???? ? ?? ?? ?? ?? ????? ???? ??? ??? ??? ? ? <??4>?? ?? ?? ?? 99% ??? ??? ?? ?? ???. ?? ?? ???? ? ? ??? <??5>?? ?? ? ???? ???? ???? ? ?? ?? ??? ?? ? 2??? ???? ???? ??? ??? ??? ? ? ????? ?? ???? ??? ?? ??? ?? ? ??. ?? ^??? ̄? ?? ^?? ̄? ???? ? ??? ??. ?? ????? ??? ???? ???? ??? ?? ?? ???? ???? ??? ??? ??? ?? ? ? ???? ? ??? ?? ????? ?? ???? ??. ???? ?? ????? ?? ?? ??? ??? ? ? ?????, ???? ?? ?? ??? ?? ??? ?? ???? ?? ????? ????? ???. ?? <??6>? ?? `?¨,`?¨ ??? ?? ?? ??? ?? ???? ? ? ??. ??? ? ?? ?? ?? ??? ?? ???? ????? ?? <?2>? ? ? ??? ? ??. ?? ? ? ??? ??? ?? ? ?? 1? ??? ??? ? ? ?? ??? ?? ?? ??? ??? ??? ??? ??? ??? ?? ?? ??3. ?? 1, 2? ???? ?? ? ??? ???? ?? ?????.
  • 4. ??? ???? ?? ?? ???? ??? ?? ?? ? ??? ??? ??? ??. 絳 遯 罟 絳 絳 遯 (1) 絳 ? ??? v? ?? ???? ???? w? ??? ? ?? ???? ????. ?? ?? ??? ??? ?? ? ?? ?????? ???? ??? W? ??? ? ?? ??? ? ??. arg妛分甃 絳潛遯 罟 絳 (2) (1)??? ??? ???? P(v)? ?? w????? ? ?? ???? ??? ??? ? ??? ?? (2)?? ? ??6. ?? ??? ?? ??(??) ??? ? ??? ? ??. 絳潛遯 ? ???? w? ????? v? ??? ? ?? ?? ?? ???? ???? ????? ? ????? ???? ????. ??? P(w)? ??? ?? ?? ?? ??? ? ?? ???. T(?) t(?) 0.9875 O b(?) n(?) 0.8974 O O 3.1 ?? ??(Error Model) o(?) p(?) 0.8908 O O E(?) x(?) 0.8000 O ? ??? v, w? ??? ?? 絳 遯 ? ???? ? u(?) j(?) 0.7826 O O ? ??? ? ??? v,w ? ??? ??? ????? i(?) k(?) 0.7778 O O ???? ???. R(?) z(?) 0.7647 O 絳 遯 『 オ 絳 (3) P(?) p(?) 0.7647 O ???? ?? ??? ??, ??, ?? ??? ??? g(?) d(?) 0.7619 O ??? ?? ???? ???? ?? 2??? ???? p(?) o(?) 0.7246 O O ?? ???? ?? ?? ???? ???? ???? y(?) h(?) 0.7143 O O ??? ??? ? ? ?? ???. v(?) q(?) 0.6111 O ??? ??? ?? ??? ??? ?? ??? ?? ? Q(?) v(?) 0.5714 O ? ??? ??[8]. c(?) w(?) 0.5556 O t(?) T(?) 0.5258 O オ 絳 log 螽 絳 罟 (4) z(?) r(?) 0.5000 O e? ???? ?? ??(c ★ _), ??(_ ★ c ), ??(c O(?) o(?) 0.5000 O ★ d)? ?? ??? ??? ????? ????. ?? O(?) P(?) 0.5000 O O ? ? ????? ?? ?? ???? ?? ??? ?? ?2. ?? ?? ?? 18?? ??? ?? ??. <?2>?? ??? ??? ?? ?? ?? ? ?? 18? ???? ?? ??? ???? ???(???)? ?? ? ??? ??? ?? ?? ???? ????? ?? ??? ??? ? ? ??. ? ??????, ???? ??? ??? ??? ?? 絳 遯 ’ 絳 絳 〜 絳 〜 〜 絳 (5) ? ??? ?? ???? ? ? ???(??? ??? ??? ??? ???. ??? ??? ?? ??? 1? ????? ????). log 絳潛遯 (6) log 絳 log 螽 絳 罟 log 絳 3. ??? ?? ??(Bayesian noisy channel) (6)?? (4)?? ???? ??? ?? ?? ?? ? ? 2?? ?? ?? ? ?? ????? ?? ???? ? ?. ?? ? ???? ????? ?? ?? ??? ??? log 絳 遯 オ 絳 (7) ?? ?????. ??? ??? ???? ??? ?? ??? ??? w,v ??? ??? ????? ??? ? ??? ????? ???? ?? ????? ???? ???? ??? ? ?? ???. ? ?? ??? ??? ???? ?? ??? ? ??. ?? ?? ???? ???? ?? ?? ?? ???? ? ?????? ????? ??? ???? ??? ? ? ?? ??? ????. ?? ?? ???? ??? ? ?? ??? ?????? ???? ??? ??? ?????? ???? ???? ?? ??? ???? ?. ??? ?? ???? ??? ?? ?? ??? ? ???? ??? ?? ?? ???? ???????? ??? ?? ???? ???(ASCII) ???(0x41 ~ 0x7A) ????? ???? ??? ????. ??? ???? ?? ????? ???? ??? ?? ?? ????(Fullwidth) ??? ????(0xFF21 ~ 3.1.1 ????? ???? ??? ?? 0xFF5A). ??? 2??? ????? ??? ???? ??? ???? ?? ??? ??? ???? ??? ????? ??? ???? ?????? ????? ?? ??? ?? ??? ??? ???? ???? ? ?? ? ??? ???? ???(~)? ?? ??. ????, ?? ?? ??? ???? ??? ???
  • 5. (query reformulation) ???? ??? ???? ??? ???? ??? ??? ???? ???? ?? ??? ? ?? ??? ? ? ??[9][10]. ??? ????? ??? ?? ????? ??? ?? ????? ??? ?? ?? ?? ??? ???? [8] ????. ?? ??? ???? ?? ???? ? ???? ?? ? ????? ???? ?? <??7>? ??. ?? ?? ??? ????? ???? ?????. ?? ????`??? ??? ??? ?? ???¨ ? ??? ???? ?? ???? ?? ????, ?? ? ?? ?? ??(Hadoop) ????? ?????. ??? ???? 1???? ???, ???? ??? (reformulated query), ?? ???? ??, ? ???? ???? ??? ??? ??? ?? ??? ??? ? ? ? ???? ?? ???? ?? q? ????? ? s? ??? ??? ???? ??? ???? ???? ?? ? ??( 絳 遯 ???? ???). ??? q? s? ??? ???, ?? ?? ?? ??? ?? ??? ? ? ??, ??? ???? ??? ?? ??? ??? ?? ??. ??? ?? ???? ??, ?? ?? ?? ??7. <?3>? ???? ?? ??? ? ?? ??? ??, ?? ???? ???? ???? (x?: ??1, y?:??2) ?. ?? ?? ??1 ??2 3.2 ?? ??(Language Model) ?? ?? P(w) ??? ??? ??? ????(unigram) ???? o(?) p(?) 3 1 ? ????. p(?) o(?) 10 2 T(?) t(?) 1 3 b(?) n(?) 2 4 絳 絳 (8) m(?) n(?) 40 5 t(?) T(?) 15 6 n(?) m(?) 20 7 ? ??? ?? ??? ???? ?? ? ??. N? ? j(?) u(?) 97 8 P(?) p(?) 8 9 ? ??? ?? ???? C(w)? w ??? ??? ?? n(?) b(?) 31 10 ??? ?? ? ?? ???. ?? ??? ?????? x(?) e(?) 34 11 ???? ?? ???? ?? ?? ???? ???? e(?) x(?) 23 12 ? ???. k(?) i(?) 77 13 R(?) r(?) 44 14 j(?) k(?) 42 15 4.??? ?? z(?) r(?) 16 16 p(?) P(?) 80 17 r(?) z(?) 45 18 u(?) j(?) 5 19 h(?) y(?) 123 20 ?3. ??? ???? ?? ???? ?? ??? ?? ?? ?? ?? ? ?? 20?? ?? ?? ?? (??1? ??? ?? ???? ???? ?? ??, ??2? ???? ????? ???? ???) ??? 1??? ???? ??? ?? ??? ???? ???? ?? ???? ?? ??? ??? ?? ? ? ??(2.3?? ??? 2,252?? ???)? ??? ??? ??8. ??? ?? ? ?? ??? ???? ??? ???? ?? ??? ???? ??? ??? ? <??8>? ??? ? ?? ? ???? ??? ??? ??? ????(Spearman) ? ?? ??? ??? ??. ????[11] ??? ??? ????? ??? ???. ???? 250??? ?? ??? ?? ?? ?? ??? 1) ??? ?? ???? ????? ????. ? ???? 0.507??? ?? ?? ????? ? ?? ? ??? ??? ??? ? ???? ??? ???? 2,3) ??? ???? ??? ???? ?? ???? ?
  • 6. ???? ????? ??. ???? ???? ? ?? ??? ?? ??? ????. ACC FSCO PREC RECL FPOS SERVICE .954 .560 .570 .551 .024 G? 4) ?? ????? ?? ?? ??? ?? ??? ?? .956 .554 .621 .499 .018 Y! ? ?? ???? ??? ?? ??? ?? ????? +.002 -.006 +.051 -.052 -.006 ?? ????. ???? ????? ???? ???? ?5. G??? ?? ???? ????, ?????? ?? ??? ???? ??? (Y!? ? ??? ???? ???? ??? ????) ??? ?? ??? ???? ??? ??. ????? ??? ????? ???? ????(gradient boosted <?5>?? ? ???? ???? ??? ??. distributed decision trees)[12]? ?????. 坎洙岑悴朏曵岡略棯洙姙檪 5) ????? ??? ??? ??? ??? ????. ! (9) 坎洙岑 洙略朏飭略 Κ蟹 (10) 4)? ??? ?? ?? ??? ???, ?? ??? ?? ?? ???? ???? ???? ?? ??? ?? ? 葵鴎オ 鴎オ ??? ???? ??? ????. ??? ???? ? 坎洙岑 悴朏曵 洙亂亂 葵鴎オ (11) ?? ???? ? ???? ?? ??? ???? ?? 坎洙岑 洙亂亂 ??? ???? ??? ??? ? ?? ?? ?? ?? 坎洙岑悴朏曵 洙亂亂 鴎オ (12) ??? ??? ???? ?? ???? ??. ?? ?? 坎洙岑 略略揖飭廳 洙亂 ? ??? ?? ????? ????? ? ?? ??? 坎洙岑 分悠 洙亂亂 Κ葵 (13) ???? ?? ??? ??? ??? ??? ???. ? 坎洙岑 洙略朏飭略 ?? ? ???? ???? ??? ????2). ? <?5>? ??? ??? ?? ? F-Score? ?? ?? 5. ???? ?? ??? ??? ????. PREC? RECL? ??? ?? ??? ?? ?? ???? ??? ???? ?? ?? ???? FSCO? ??? ????? ???? ? ??. ??? ?? ?? -.006? ??? ???. ? ??? ? ?? ??? ???? ?? ?? ???? ?? ??? ?? G? ????? ? ??? ??? ?? ? ? ? (stratified sampling) ???? ?? <?4>? ?? ??? ?. ??? G?? ?? ASCII?? ??? ????? ? ? ????? ?? ?? ??? ???? ????? ?? ??? ??? ????(PREC : -.112, RECL : ??? ?? ?? ????? ??? ??? ???? -.324) ??? ? ?? ??? ?? ? ????? ?? ???? ???? ?? ??? ???? ?????. ??? Y!? ???? ???(PREC : -.354, RECL: ? ??? ^?? ???? ̄? ???? ?? ??? -.350). ??? 1,2,3?? ???? ???? Y!? G?? ??? ??? ???? ?? ???? ??? ???? ?? ??? ??? ??? ?????. ? ????. ?? Y! ???? ??? ??? ?? ?? ??? 96? (?????? : 194)? ??? ??? ??? ???. ???? ??? ?? 40?? ???? ?????? ? ?? ????? ???? ???? ??? ???? ?? ???????. ?? ?? ?? ?? ? ???? ???? ??? ??? ????? 42%? ???? ??? ?? ??? 10,142 37,277 34,886 2,391 ? ?? ?? ?? ??? ???? ?? ?????? ???? 2,926 11,328 10,624 704 ? ? ???. ??? ??? ?? ??? ???? ? ?? ??? ?? ?? ?? ??? ?? ? ?? ?? ?4. ???/???? ?????. ??? ??? ???? ?? ???? ???? ??? ??? ?? ?? ?????? ?? ??? ?? ?? ???, 14.9%? ?? ??? ???? ??? ?? ? ??? ?? ??? ? ??? ?? ??? G??? ? ??? ???? ?? ????. ?? ?? ^???? ??? ?? ???? ????? ???. G?? ?? ?? ̄?? ???? ??? ??? ^?????? ̄? ??? ????? ???? ?? ??? ?? ???? ??? ?? ????? ???? ???? ?? ^?? ?? ?? ??? ??? ?? ?????, ??/?? ? ? ̄? ^??? ̄? ??? ???? ?? ?? ??? ??? ??? ? ??? ????? ?? ????^? ?. ?? ???? ???? ?? ??? ?? ???? ?? ?????? ̄?? ?? ?? ?? ???? ?? ? ??? ???? ???? ?? ?? ???? ?? ??. ???? ?? ??? ?? ?? ?? ????? ?? ?? ??? ???? ??? ?? ?? ? ?? ?? 2) ?? ??? ????? ??? ?? ?? ?? ???? ???? ??? ?? ? ?? ???. ?? ? ??? ?? ??? ??? ? ?? ????? ???. ?? ?? ?? ??? ??? ??? ??? ??? ?
  • 7. ?? ????. ?? ?? ^?? ̄? ^dign ̄? ??? [6] Brill, E. and Moore, R. An improved error model for ?? ??? ???? ????? ??? ???? ?? noisy channel spelling correction. Proceedings of the ?? ?? ? ?? ???? ??? ?? ?? ??? 38th Annual Meeting of the Association for ???? ? ??? ?? ???? ?? ??? ??? ? ??? ????? ?? ??? ?? ?????. ? Computational Linguistics. 286 - 293. 2000. ?? ?? ??? ???? ??? ?? ???? ?? [7] Farooq Ahmad, Grzegorz Kondrak. Learning a ? ??? ?????? ???(navigational queries)? spelling error model from search query logs. Human ???? ?? ??. ??? ?? ???? ?? ?? Language Technology Conference. Proceedings of the ??? ????? ??? ???? ??? ??? ? conference on Human Language Technology and ? ?? ???. Empirical Methods in Natural Language Processing. 6. ?? ? ?? ???? Vancouver, British Columbia, Canada. 955 - 962. 2005 ? ????? ???? ???? ?? ???? ?? [8] Ristad, E. and Yianilos, P. Learning string edit ? ??? ?? ??? ??????. ??? ?? ?? distance. IEEE Transactions on Pattern Analysis and ?? ??? ???? ???? ?? ?? ???? ? Machine Intelligence. 20(5):522-532. 1997. ?? ???? ??? ????? ?? ??? ??? ? ??? ??? ????? ??? ? ? ???. ? [9] Boldi, P.; Bonchi, F.; Castillo, C.; Vigna, S. From ? ????? ??? ?? ???? ??? ?? ?? 'dango' to 'japanese cakes': Query Reformulation Models ??? ??? ??? ???? ?? ??? ????? and Patterns. Web Intelligence, IEEE Cs Press, Milan, ????? ? ??? ?? ????? ??? ? ? ? Italy (2009) ?? ?? ????. ?? ?? ???? ??? ??? ? ?? ??? ?? ?? ??? ?? ?? ?? ?? [10] Brill, E. and Cucerzan, S. Spelling correction as an ????? ????? ? ? ?? ??? ???? ? iterative process that exploits the collective knowledge ?? ?? ??? ? ???. of web users. Proceedings of EMNLP 04. 293-300. 2004. ??? ??? ??? ???? ???? ?? ??? ???? ???? ?? ??? ?? ???, ?? ?? [11] http://en.wikipedia.org/wiki/Spearman's_rank_correlation_c ? ??? ?? ?????? ??? ????? ?? ? ? ????, ??? ???? ?? ??? ??? oefficient ??? ?? ?? ??? ???? ??? ?? ??? [12] Jerry Ye, Jyh-Herng Chow, Jiang Chen, Zhaohui ?? ?? ??? ???. ??? ?? ?? ?? ?? Zheng. Stochastic gradient boosted distributed decision ??? ?? ??? ?? ?? ??? ??? ?? ?? trees. Conference on Information and Knowledge ? ???. Management. Proceeding of the 18th ACM conference ???? on Information and knowledge management. Hong Kong, China. Poster session 8: IR track. 2061-2064. 2009 [1] Kucich, K. Techniques for automatically correcting words in text. ACM Computing Surveys. 24(4):377-439. 1992 [2] Damerau, F. A technique for computer detection and correction of spelling errors. Communications of the ACM. 7(3):171-176. March 1964 [3] Wagner, R. and Fischer, M. The string to string correction problem. Journal of the ACM. 21(1):168-173. January 1974. [4] Kernighan, M., Church, K., and Gale, W. A spelling correction program based on a noisy channel model. Proceedings of COLING 1990. 205-210. 1990. [5] Ristad, E. and Yianilos, P. Learning string edit distance. IEEE Transactions on Pattern Analysis and Machine Intelligence. 20(5):522-532. 1997.