Упражнение K & R: мой код работает, но чувствует себя вонючим; Совет для очистки?

Я работаю над книгой K&R. Я читал дальше, чем делал упражнения, в основном из-за нехватки времени. Я догоняю и выполнил почти все упражнения из главы 1, которая является учебным пособием.

Моей проблемой было упражнение 1-18. Упражнение состоит в том, чтобы:

Напишите программу для удаления конечных пробелов и вкладок из строки ввода и удаления полностью пустых строк

Мой код (ниже) делает это и работает. Моя проблема с этим - метод отделки, который я реализовал. Чувствуется... неправильно... как-то. Например, если бы я видел подобный код в C# в обзоре кода, я бы, наверное, сошел с ума. (C# одна из моих специальностей.)

Может кто-нибудь предложить какой-нибудь совет по очистке этого - с уловкой, которая сказала, что совет должен использовать только знания из главы 1 K & R. (Я знаю, что есть миллионы способов очистить это, используя полную библиотеку C; мы ' Я просто говорю главу 1 и базовый stdio.h здесь.) Также, когда вы даете совет, можете ли вы объяснить, почему он поможет? (В конце концов, я пытаюсь учиться! А у кого лучше учиться, чем у экспертов здесь?)

#include <stdio.h>

#define MAXLINE 1000

int getline(char line[], int max);
void trim(char line[], char ret[]);

int main()
{
    char line[MAXLINE];
    char out[MAXLINE];
    int length;

    while ((length = getline(line, MAXLINE)) > 0)
    {
        trim(line, out);
        printf("%s", out);
    }

    return 0;
}

int getline(char line[], int max)
{
    int c, i;

    for (i = 0; i < max - 1 && (c = getchar()) != EOF && c != '\n'; ++i)
        line[i] = c;

    if (c == '\n')
    {
        line[i] = c;
        ++i;
    }

    line[i] = '\0'; 
    return i;
}

void trim(char line[], char ret[])
{
    int i = 0;

    while ((ret[i] = line[i]) != '\0')
        ++i;

    if (i == 1)
    {
        // Special case to remove entirely blank line
        ret[0] = '\0';
        return;
    }

    for (  ; i >= 0; --i)
    {
        if (ret[i] == ' ' || ret[i] == '\t')
            ret[i] = '\0';
        else if (ret[i] != '\0' && ret[i] != '\r' && ret[i] != '\n')
            break;
    }

    for (i = 0; i < MAXLINE; ++i)
    {
        if (ret[i] == '\n')
        {
            break;
        }
        else if (ret[i] == '\0')
        {
            ret[i] = '\n';
            ret[i + 1] = '\0';
            break;
        }
    }
}

РЕДАКТИРОВАТЬ: Я ценю все полезные советы, которые я вижу здесь. Я хотел бы напомнить людям, что я все еще n00b с C, и определенно еще не дошел до указателей. (Вспомните немного о Ch.1 в K&R - в Ch.1 нет указателей.) Я "вроде" получаю некоторые из этих решений, но они все еще немного продвинуты для того, где я нахожусь...

И большая часть того, что я ищу, - это сам метод обрезки - в частности, тот факт, что я повторяю цикл 3 раза (который кажется таким грязным). Я чувствую, что если бы я был чуть более умным (даже без глубоких знаний C), это могло бы быть чище.

9 ответов

Решение

Нет причин иметь два буфера, вы можете обрезать входную строку на месте

int trim(char line[])
{
    int len = 0;
    for (len = 0; line[len] != 0; ++len)
        ;

    while (len > 0 &&
           line[len-1] == ' ' && line[len-1] == '\t' && line[len-1] == '\n')
        line[--len] = 0;

    return len;
}

Возвращая длину строки, вы можете устранить пустые строки, протестировав строки с ненулевой длиной

if (trim(line) != 0)
    printf("%s\n", line);

РЕДАКТИРОВАТЬ: Вы можете сделать цикл while еще проще, предполагая кодировку ASCII.

while (len > 0 && line[len-1] <= ' ')
    line[--len] = 0;

Если вы придерживаетесь главы 1, это выглядит довольно хорошо для меня. Вот что я бы порекомендовал с точки зрения проверки кода:

При проверке равенства в C всегда ставьте константу первой

if (1 == myvar)

Таким образом, вы никогда не будете случайно делать что-то вроде этого:

if (myvar = 1)

Вы не можете сойти с рук в C#, но он прекрасно компилируется в C и может быть настоящим дьяволом для отладки.

Отделка () слишком велика.

Я думаю, что вам нужна функция strlen-ish (напишите в строку длины (const char *s)).

Затем вам нужна функция с именем int scanback(const char *s, const char *match, int start), которая запускается при запуске, уменьшается до z до тех пор, пока символ, сканируемый с идентификатором s, содержащимся в совпадениях, возвращает последний индекс, где совпадение найдено.

Затем вам нужна функция с именем int scanfront(const char *s, const char * совпадений), которая начинается с 0 и сканирует вперед до тех пор, пока сканируемый символ в s содержится в совпадениях, возвращая последний индекс, в котором найдено совпадение.

Затем вам нужна функция с именем int charinstring(char c, const char *s), которая возвращает ненулевое значение, если c содержится в s, иначе 0.

Вы должны быть в состоянии написать аккуратный с точки зрения этих.

Лично за время конструирует:

Я предпочитаю следующее:

while( (ret[i] = line[i]) )
        i++;

чтобы:

while ((ret[i] = line[i]) != '\0')
        ++i;

Они оба проверяют против!= 0, но первый выглядит немного чище. Если значение char равно 0, то тело цикла будет выполнено, иначе оно выйдет из цикла.

Также для операторов for, хотя они являются синтаксически действительными, я считаю, что следующее:

for (  ; i >= 0; --i)

просто выглядит "странно" для меня и действительно является потенциальным кошмарным решением для потенциальных ошибок. Если бы я просматривал этот код, он был бы похож на красное предупреждение. Как правило, вы хотите использовать циклы for для повторения известного количества раз, в противном случае можно создать цикл while. (как всегда есть исключения из этого правила, но я обнаружил, что это в целом верно). Выше для утверждения может стать:

while (i)
{
        if (ret[i] == ' ' || ret[i] == '\t')
        {
            ret[i--] = '\0';
        }
        else if (ret[i] != '\0' && ret[i] != '\r' && ret[i] != '\n')
        {
            break;
        }
}

Еще один пример того же. Сделал небольшое нарушение, используя материал, специфичный для C99. это не будет найдено в K&R. также использовал функцию assert(), которая является частью библиотеки starndard, но, вероятно, не рассматривается в первой главе K&R.

#include <stdbool.h> /* needed when using bool, false and true. C99 specific. */
#include <assert.h> /* needed for calling assert() */

typedef enum {
  TAB = '\t',
  BLANK = ' '
} WhiteSpace_e;

typedef enum {
  ENDOFLINE = '\n',
  ENDOFSTRING = '\0'
} EndofLine_e;

bool isWhiteSpace(
  char character
) {
  if ( (BLANK == character) || (TAB == character ) ) {
    return true;
  } else {
    return false;
  }
}

bool isEndOfLine( 
  char character
) {
 if ( (ENDOFLINE == character) || (ENDOFSTRING == character ) ) {
    return true;
  } else {
    return false;
  }
}   

/* remove blanks and tabs (i.e. whitespace) from line-string */
void removeWhiteSpace(
  char string[]
) {
  int i;
  int indexOutput;

  /* copy all non-whitespace character in sequential order from the first to the last.
    whitespace characters are not copied */
  i = 0;
  indexOutput = 0;
  while ( false == isEndOfLine( string[i] ) ) {
    if ( false == isWhiteSpace( string[i] ) ) {
      assert ( indexOutput <= i );
      string[ indexOutput ] = string[ i ];
      indexOutput++;
    }
    i++; /* proceed to next character in the input string */
  }

  assert( isEndOfLine( string[ i ] ) );
  string[ indexOutput ] = ENDOFSTRING;

}

Лично я бы поставил код так:

ret[i] != '\0' && ret[i] != '\r' && ret[i] != '\n'

в отдельную функцию (или даже макрос определения)

  1. Обрезка должна действительно использовать только 1 буфер (как говорит @Ferruccio).
  2. отделка должна быть разбита, как говорит @plinth
  3. Обрезка не должна возвращать никакого значения (если вы хотите проверить наличие пустой строки, проверьте строку [0] == 0)
  4. для дополнительного вкуса С используйте указатели, а не индексы

-до конца строки (оканчивается 0; -тогда не в начале строки, а текущий символ - пробел, замените его на 0. -был один символ

char *findEndOfString(char *string) {
  while (*string) ++string;
  return string; // string is now pointing to the terminating 0
}

void trim(char *line) {
  char *end = findEndOfString(line);
   // note that we start at the first real character, not at terminating 0
  for (end = end-1; end >= line; end--) {
      if (isWhitespace(*end)) *end = 0;
      else return;
  }
}

Вот мой удар по упражнению, не зная, что в главе 1 или K & R. Я предполагаю, что указатели?

#include "stdio.h"

size_t StrLen(const char* s)
{
    // this will crash if you pass NULL
    size_t l = 0;
    const char* p = s;
    while(*p)
    {
        l++;
        ++p;
    }
    return l;
}

const char* Trim(char* s)
{
    size_t l = StrLen(s);
    if(l < 1)
        return 0;

    char* end = s + l -1;
    while(s < end && (*end == ' ' || *end == '\t'))
    {
        *end = 0;
        --end;
    }

    return s;
}

int Getline(char* out, size_t max)
{
    size_t l = 0;
    char c;
    while(c = getchar())
    {
        ++l;

        if(c == EOF) return 0;
        if(c == '\n') break;

        if(l < max-1)
        {
            out[l-1] = c;
            out[l] = 0;
        }
    }

    return l;
}

#define MAXLINE 1024

int main (int argc, char * const argv[]) 
{
    char line[MAXLINE];
    while (Getline(line, MAXLINE) > 0)
    {
        const char* trimmed = Trim(line);
        if(trimmed)
            printf("|%s|\n", trimmed);

        line[0] = 0;
    }

    return 0;
}

Прежде всего:

int main (void)

Вы знаете параметры для main (). Они ничто. (Или argc&argv, но я не думаю, что это материал главы 1).

В стиле, вы можете попробовать скобки в стиле K&R. Они намного легче в вертикальном пространстве:

void trim(char line[], char ret[])
{
    int i = 0;

    while ((ret[i] = line[i]) != '\0')
        ++i;

    if (i == 1) { // Special case to remove entirely blank line
        ret[0] = '\0';
        return;
    }

    for (; i>=0; --i) { //continue backwards from the end of the line
        if ((ret[i] == ' ') || (ret[i] == '\t')) //remove trailing whitespace
            ret[i] = '\0';

        else if ((ret[i] != '\0') && (ret[i] != '\r') && (ret[i] != '\n')) //...until we hit a word character
            break;
    }

    for (i=0; i<MAXLINE-1; ++i) { //-1 because we might need to add a character to the line
        if (ret[i] == '\n') //break on newline
            break;

        if (ret[i] == '\0') { //line doesn't have a \n -- add it
            ret[i] = '\n';
            ret[i+1] = '\0';
            break;
        }
    }
}

(Также добавлены комментарии и исправлена ​​одна ошибка.)

Большой проблемой является использование константы MAXLINE - main () использует ее исключительно для переменных line и out; trim(), который работает только над ними, не должен использовать константу. Вы должны передать размер (ы) в качестве параметра, как вы это делали в getline ().

Другие вопросы по тегам