<!-- MHonArc v2.6.19+ -->
<!--X-Subject: [Octave&#45;bug&#45;tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding -->
<!--X-From-R13: [nexhf [ügmry &#60;W@HOZWR.@ADSBZKNtah.bet> -->
<!--X-Date: Tue, 04 Apr 2023 14:42:35 &#45;0400 -->
<!--X-Message-Id: 20230404&#45;204232.sv102357.68817@savannah.gnu.org -->
<!--X-Content-Type: text/plain -->
<!--X-Reference: 20230315&#45;170922.sv100832.76771@savannah.gnu.org -->
<!--X-Reference: 20230315&#45;185500.sv79370.36471@savannah.gnu.org -->
<!--X-Reference: 20230315&#45;212541.sv341422.96630@savannah.gnu.org -->
<!--X-Reference: 20230315&#45;212541.sv341422.13085@savannah.gnu.org -->
<!--X-Reference: 20230315&#45;233002.sv79370.16833@savannah.gnu.org -->
<!--X-Reference: 20230316&#45;082722.sv102357.41728@savannah.gnu.org -->
<!--X-Reference: 20230316&#45;120845.sv100832.58719@savannah.gnu.org -->
<!--X-Reference: 20230316&#45;143303.sv102357.59383@savannah.gnu.org -->
<!--X-Reference: 20230316&#45;155623.sv100832.59023@savannah.gnu.org -->
<!--X-Reference: 20230318&#45;095923.sv100832.9833@savannah.gnu.org -->
<!--X-Reference: 20230318&#45;100626.sv100832.17146@savannah.gnu.org -->
<!--X-Reference: 20230319&#45;140808.sv100832.89468@savannah.gnu.org -->
<!--X-Reference: 20230319&#45;141950.sv79370.81039@savannah.gnu.org -->
<!--X-Reference: 20230319&#45;142630.sv79370.2426@savannah.gnu.org -->
<!--X-Reference: 20230319&#45;174427.sv100832.42625@savannah.gnu.org -->
<!--X-Reference: 20230319&#45;174953.sv79370.67639@savannah.gnu.org -->
<!--X-Reference: 20230320&#45;182041.sv89165.88579@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;100113.sv89165.98405@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;152657.sv79370.26335@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;120709.sv89165.764@savannah.gnu.org  -->
<!--X-Reference: 20230324&#45;163955.sv79370.86039@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;164000.sv100832.71630@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;161739.sv89165.71782@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;162315.sv89165.16329@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;205107.sv79370.59252@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;173038.sv89165.68366@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;214104.sv79370.45840@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;214253.sv79370.94287@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;214451.sv79370.95698@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;174516.sv89165.36603@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;215639.sv79370.21412@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;190150.sv89165.10230@savannah.gnu.org -->
<!--X-Reference: 20230324&#45;202555.sv89165.74522@savannah.gnu.org -->
<!--X-Reference: 20230325&#45;010309.sv79370.43000@savannah.gnu.org -->
<!--X-Reference: 20230328&#45;154623.sv102357.38498@savannah.gnu.org -->
<!--X-Reference: 20230328&#45;141456.sv79370.48605@savannah.gnu.org -->
<!--X-Reference: 20230328&#45;165528.sv102357.48176@savannah.gnu.org -->
<!--X-Reference: 20230328&#45;145758.sv79370.87543@savannah.gnu.org -->
<!--X-Reference: 20230328&#45;171035.sv102357.27356@savannah.gnu.org -->
<!--X-Reference: 20230331&#45;151243.sv102357.25855@savannah.gnu.org -->
<!--X-Reference: 20230331&#45; 132149.sv79370.40059@savannah.gnu.org -->
<!--X-Reference: 20230331&#45;152639.sv102357.26733@savannah.gnu.org -->
<!--X-Reference: 20230331&#45;181332.sv102357.41333@savannah.gnu.org -->
<!--X-Reference: 20230401&#45;170212.sv102357.12023@savannah.gnu.org -->
<!--X-Reference: 20230401&#45;235130.sv79370.63079@savannah.gnu.org -->
<!--X-Reference: 20230402&#45;101004.sv102357.27391@savannah.gnu.org -->
<!--X-Reference: 20230402&#45;114404.sv102357.57684@savannah.gnu.org -->
<!--X-Reference: 20230402&#45;132750.sv102357.7168@savannah.gnu.org -->
<!--X-Reference: 20230402&#45;152328.sv102357.54238@savannah.gnu.org -->
<!--X-Reference: 20230402&#45;154838.sv100832.60517@savannah.gnu.org -->
<!--X-Reference: 20230403&#45;105554.sv102357.10229@savannah.gnu.org -->
<!--X-Reference: 20230403&#45;182653.sv102357.21251@savannah.gnu.org -->
<!--X-Reference: 20230404&#45;090410.sv7043.68229@savannah.gnu.org -->
<!--X-Reference: 20230404&#45;133425.sv102357.12489@savannah.gnu.org -->
<!--X-Reference: 20230404&#45;134528.sv102357.70168@savannah.gnu.org -->
<!--X-Reference: 20230404&#45;144817.sv79370.77121@savannah.gnu.org -->
<!--X-Reference: 20230404&#45;154335.sv79370.14320@savannah.gnu.org -->
<!--X-Reference: 20230404&#45;180133.sv102357.38879@savannah.gnu.org -->
<!--X-Reference: 20230404&#45;160536.sv79370.44377@savannah.gnu.org -->
<!--X-Reference: 20230404&#45;161201.sv79370.47004@savannah.gnu.org -->
<!--X-Reference: 20230404&#45;183823 .sv102357.32071@savannah.gnu.org -->
<!--X-Reference: 20230404&#45;183948.sv102357.32226@savannah.gnu.org -->
<!--X-Reference: 20230404&#45;173821.sv79370.78490@savannah.gnu.org -->
<!--X-Reference: 20230404&#45;175754.sv79370.7511@savannah.gnu.org -->
<!--X-Reference: 20230404&#45;184130.sv79370.704@savannah.gnu.org -->
<!--X-Head-End-->
<!doctype html public "-//W3C//DTD HTML//EN">
<html>
<head>
<title>[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters wh</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body>
<center>
<table border=0 cellspacing=2 cellpadding=0 bgcolor="#000000">
<tr><td><table border=0 bgcolor="#FFFFCC">
<tr><td><big><b>octave-bug-tracker</b></big></td></tr></table></tr></table>
<div class="nowrap">
<small>[<a href="../"
>Top</a>][<a href="/archive/html">All Lists</a>]</small>
</div>
<form method="get" action="/archive/cgi-bin/namazu.cgi">
<input type="text" name="query" size="30">
<input type="submit" name="submit" value="Search">
<input type="hidden" name="idxname" value="octave-bug-tracker">
<a href="/archive/cgi-bin/namazu.cgi?idxname=octave-bug-tracker">Advanced</a>
</form>

</center>
<!--X-Body-Begin-->
<!--X-User-Header-->
<!--X-User-Header-End-->
<!--X-TopPNI-->
<hr>
[<a href="msg00078.html">Date Prev</a>][<a href="msg00080.html">Date Next</a>][<a href="msg00078.html">Thread Prev</a>][<a href="msg00080.html">Thread Next</a>][<a
href="index.html#00079">Date Index</a>][<a
href="threads.html#00079">Thread Index</a>]

<!--X-TopPNI-End-->
<!--X-MsgBody-->
<!--X-Subject-Header-Begin-->
<h2>[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters wh</h2>
<hr>
<table border=0>
<tbody>
<tr>
<td align="right" valign="top">
<b>From</b>: </td>
<td align="left">
Markus Mützel</td>
</tr>
<!--X-Subject-Header-End-->
<!--X-Head-of-Message-->

<tr>
<td align="right" valign="top">
<b>Subject</b>: </td>
<td align="left">
[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</td>
</tr>

<tr>
<td align="right" valign="top">
<b>Date</b>: </td>
<td align="left">
Tue,  4 Apr 2023 14:42:33 -0400 (EDT)</td>
</tr>

</tbody>
</table>
<!--X-Head-of-Message-End-->
<!--X-Head-Body-Sep-Begin-->
<hr>
<!--X-Head-Body-Sep-End-->
<!--X-Body-of-Message-->
<pre>Follow-up Comment #63, bug #63930 (project octave):

This looks like something isn't quite right in libc++:
<a  rel="nofollow" href="https://github.com/llvm/llvm-project/blob/5c950a3127da7c4121da75df9751208ba2aa9cad/libcxx/include/locale#L4110">https://github.com/llvm/llvm-project/blob/5c950a3127da7c4121da75df9751208ba2aa9cad/libcxx/include/locale#L4110</a>

            do
            {
                const char_type* __e;
                __r = __cv_-&gt;out(__st_, this-&gt;pbase(), this-&gt;pptr(), __e,
                                        __extbuf_, __extbuf_ + __ebs_,
__extbe);
                if (__e == this-&gt;pbase())
                    return traits_type::eof();
[...]
            } while (__r == codecvt_base::partial);


A this point, `this-&gt;pptr()` seems to point only one ahead of `this-&gt;pbase()`
(inspecting with gdb - not sure why that is though). That means that we got an
incomplete UTF-8 character. We need to reset `__e` to `this-&gt;pbase()` to
restart with more characters in the buffer.
The next expression terminated the conversion.

We currently don't do the part about resetting `__e` correctly. That's the
reason for the random crashes. With `libstdc++`, it is initialized reasonably
and we don't need to touch it when not converting anything. But the standard
doesn't seem to make any guarantees about that.

This might have worked before because we didn't reverse the `from_next`
pointer ever. But that was wrong (because it could lead to incorrect
conversions from partial multi-byte UTF-8 surrogates).

Looking at the following defect report and its resolution, libc++ might be
working according to the standard:
<a  rel="nofollow" href="https://cplusplus.github.io/LWG/issue76">https://cplusplus.github.io/LWG/issue76</a>

However, `libstdc++` seems to do just fine with that situation.

I don't know what the best solution is now. 🤷‍♂️
We probably need to rethink the entire transcoding. It wouldn't even help if
we switched to UTF-16 internally because the current approach would still not
be standard compliant for characters outside the BMP. (UTF-32 might work.)

As a short-term workaround, it might make sense to disable the transcoding
with libc++.
Is there a way to detect on compile time that we will be linking to libc++?
Are there configure checks for that?

And we should try to not crash even with libc++. I can probably look at that
part some time during this week.


    _______________________________________________________

Reply to this item at:

  &lt;<a  rel="nofollow" href="https://savannah.gnu.org/bugs/?63930">https://savannah.gnu.org/bugs/?63930</a>&gt;

_______________________________________________
Message sent via Savannah
<a  rel="nofollow" href="https://savannah.gnu.org/">https://savannah.gnu.org/</a>


</pre>
<!--X-Body-of-Message-End-->
<!--X-MsgBody-End-->
<!--X-Follow-Ups-->
<hr>
<form method="post" action="/mp/yyz.py" enctype="multipart/form-data">
<input type="hidden" name="a" value="INVALID.NOREPLY">
<input type="hidden" name="b" value="[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding">
<input type="hidden" name="d" value="20230404-204232.sv102357.68817@savannah.gnu.org">
<input type="hidden" name="c" value="gnu.org">
<center>reply via email to<br><input type="submit" value=" Markus Mützel "></center>
</form>
<hr>
<table width="100%">
<tr><td align="left">[<a href="msg00078.html">Prev in Thread</a>]</td>
<td align="center"><b>Current Thread</b></td>
<td align="right">[<a href="msg00080.html">Next in Thread</a>]</td></tr></table>
<ul>
<li><strong>[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</strong>, <em>(continued)</em>
<ul>
<ul>
<ul>
<li><b><a name="00063" href="msg00063.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Dmitri A. Sergatskov</i>, <tt>2023/04/04</tt>
<li><b><a name="00065" href="msg00065.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Dmitri A. Sergatskov</i>, <tt>2023/04/04</tt>
<li><b><a name="00066" href="msg00066.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Markus Mützel</i>, <tt>2023/04/04</tt>
<li><b><a name="00067" href="msg00067.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Dmitri A. Sergatskov</i>, <tt>2023/04/04</tt>
<li><b><a name="00068" href="msg00068.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Dmitri A. Sergatskov</i>, <tt>2023/04/04</tt>
<li><b><a name="00071" href="msg00071.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Markus Mützel</i>, <tt>2023/04/04</tt>
<li><b><a name="00072" href="msg00072.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Markus Mützel</i>, <tt>2023/04/04</tt>
<li><b><a name="00076" href="msg00076.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Dmitri A. Sergatskov</i>, <tt>2023/04/04</tt>
<li><b><a name="00077" href="msg00077.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Dmitri A. Sergatskov</i>, <tt>2023/04/04</tt>
<li><b><a name="00078" href="msg00078.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Dmitri A. Sergatskov</i>, <tt>2023/04/04</tt>
<li><font color="#666666"><strong>[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</strong>,
<em>Markus Mützel</em></font>&nbsp;<b>&lt;=</b>
<li><b><a name="00080" href="msg00080.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Dmitri A. Sergatskov</i>, <tt>2023/04/04</tt>
<li><b><a name="00086" href="msg00086.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Markus Mützel</i>, <tt>2023/04/05</tt>
<li><b><a name="00095" href="msg00095.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Charles Praplan</i>, <tt>2023/04/05</tt>
<li><b><a name="00096" href="msg00096.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Markus Mützel</i>, <tt>2023/04/05</tt>
<li><b><a name="00097" href="msg00097.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Dmitri A. Sergatskov</i>, <tt>2023/04/05</tt>
<li><b><a name="00102" href="msg00102.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Markus Mützel</i>, <tt>2023/04/06</tt>
<li><b><a name="00107" href="msg00107.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>John W. Eaton</i>, <tt>2023/04/06</tt>
<li><b><a name="00111" href="msg00111.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Markus Mützel</i>, <tt>2023/04/06</tt>
<li><b><a name="00122" href="msg00122.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Markus Mützel</i>, <tt>2023/04/07</tt>
<li><b><a name="00123" href="msg00123.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></b>, <i>Markus Mützel</i>, <tt>2023/04/07</tt>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</li>
</ul>
</ul>
</ul>
</li>
</ul>

<hr>
<!--X-Follow-Ups-End-->
<!--X-References-->
<!--X-References-End-->
<!--X-BotPNI-->
<ul>
<li>Prev by Date:
<strong><a href="msg00078.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></strong>
</li>
<li>Next by Date:
<strong><a href="msg00080.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></strong>
</li>
<li>Previous by thread:
<strong><a href="msg00078.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></strong>
</li>
<li>Next by thread:
<strong><a href="msg00080.html">[Octave-bug-tracker] [bug #63930] fprintf writes incorrect characters when converting the encoding</a></strong>
</li>
<li>Index(es):
<ul>
<li><a href="index.html#00079"><strong>Date</strong></a></li>
<li><a href="threads.html#00079"><strong>Thread</strong></a></li>
</ul>
</li>
</ul>

<!--X-BotPNI-End-->
<!--X-User-Footer-->
<!--X-User-Footer-End-->
</body>
</html>